<Быстрее чем <=?

Question

<Быстрее чем <=?

1431

Я читаю книгу, в которой автор говорит, что if( a < 901 ) быстрее, чем if( a <= 900 ).

Не так, как в этом простом примере, но есть небольшие изменения в производительности сложного кода цикла. Я полагаю, что это должно что-то сделать с созданным машинным кодом, если это даже верно.

Vinícius Magalhães Horta 27 авг. 2012, в 03:41

Источник

130

Я не вижу причин, по которым этот вопрос должен быть закрыт (и особенно не удален, как показывают голоса в настоящее время), учитывая его историческое значение, качество ответа и тот факт, что другие главные вопросы по эффективности остаются открытыми. Самое большее, это должно быть заблокировано. Кроме того, даже если сам вопрос дезинформирован / наивен, тот факт, что он появился в книге, означает, что первоначальная дезинформация существует где-то в «заслуживающих доверия» источниках, и поэтому этот вопрос конструктивен, поскольку помогает прояснить это.
Jason C 22 март 2014, в 23:49
29

Вы никогда не говорили нам, на какую книгу вы ссылаетесь.
Jonathon Reinhart 24 июль 2014, в 19:47
124

Ввод < в два раза быстрее, чем ввод <= .
Deqing 21 апр. 2016, в 00:19
1

Это отличный вопрос, и было бы интересно узнать, как он работает с использованием интерпретируемого языка, такого как Python. Рассмотреть вопрос о публикации нового вопроса, такого как «Является ли> быстрее, чем> = в Python?» но это можно считать дублирующим вопросом. Руководство приветствуется.
Rick Henderson 26 июль 2016, в 15:12
4

Это было верно на 8086.
Joshua 15 нояб. 2016, в 16:28
6

Количество откликов ясно показывает, что есть сотни людей, которые сильно переоптимизируют.
m93a 17 фев. 2018, в 13:50

Показать ещё 4 комментария

Теги:

c++

performance

assembly

relational-operators

14 ответов

575

Исторически (мы говорим о 1980-х и начале 1990-х годов), были некоторые архитектуры, в которых это было правдой. Корневая проблема заключается в том, что целочисленное сравнение реализуется посредством целочисленных вычитаний. Это приводит к следующим случаям.

Comparison     Subtraction
----------     -----------
A < B      --> A - B < 0
A = B      --> A - B = 0
A > B      --> A - B > 0

Теперь, когда A < B, вычитание должно занять высокий бит для правильного вычитания, так же, как вы переносите и занимаете при добавлении и вычитании вручную. Этот "заимствованный" бит обычно упоминается как бит переноса и может быть проверен инструкцией по ветвлению. Второй бит, называемый нулевым битом, будет установлен, если вычитание будет тождественно равным нулю, что подразумевает равенство.

Обычно были как минимум две условные инструкции ветвления, одна для ветвления на бит переноса и одна на нулевом бите.

Теперь, чтобы понять суть вопроса, позвольте развернуть предыдущую таблицу, чтобы включить результаты переноса и нулевого бита.

Comparison     Subtraction  Carry Bit  Zero Bit
----------     -----------  ---------  --------
A < B      --> A - B < 0    0          0
A = B      --> A - B = 0    1          1
A > B      --> A - B > 0    1          0

Итак, реализация ветки для A < B может быть выполнена в одной команде, потому что бит переноса является ясным только в этом случае, то есть

;; Implementation of "if (A < B) goto address;"
cmp  A, B          ;; compare A to B
bcz  address       ;; Branch if Carry is Zero to the new address

Но если мы хотим провести сравнение менее или равным, нам нужно выполнить дополнительную проверку флага нуля, чтобы поймать случай равенства.

;; Implementation of "if (A <= B) goto address;"
cmp A, B           ;; compare A to B
bcz address        ;; branch if A < B
bzs address        ;; also, Branch if the Zero bit is Set

Итак, на некоторых машинах использование сравнения "меньше" может сохранить одну машинную инструкцию. Это было актуально в эпоху процессорной скорости суб-мегагерца и соотношения скоростей между процессорами и памятью 1:1, но сегодня это почти не имеет значения.

Lucas 27 авг. 2012, в 18:35

10

Кроме того, архитектуры, такие как x86, реализуют инструкции, такие как jge , которые проверяют флаги «ноль» и «знак / перенос».
greyfade 27 авг. 2012, в 18:23
131

+1 за историческую перспективу.
sbi 27 авг. 2012, в 19:09
1

Следует отметить, что в цикле вычислений процесса / функции / программы дополнительная инструкция может иметь значение. Как отметил @greyfade, более важным, чем скорость, является то, что большинство современных процессоров CISC имеют инструкции перехода / перехода, которые проверяют флаги переноса и обнуления, таким образом, все еще используя только одну инструкцию.
Ethan Reesor 27 авг. 2012, в 19:47
2

Даже если это верно для данной архитектуры. Каковы шансы, что никто из авторов компиляторов никогда не замечал, и добавил оптимизацию, чтобы заменить медленное на более быстрое?
Jon Hanna 27 авг. 2012, в 21:50
7

Это верно для 8080. У него есть инструкции, чтобы перейти на ноль и перейти на минус, но ни один из них не может проверить оба одновременно.
user597225 27 авг. 2012, в 22:43
3

Это также относится и к семейству процессоров 6502 и 65816, которое распространяется и на Motorola 68HC11 / 12.
Lucas 27 авг. 2012, в 22:56
2

@JonHanna: Это оптимизированная версия. Для цикла инструкция "ветвление-если-равно" встречается только на последней итерации цикла, поэтому ее влияние амортизируется до некоторой доли цикла. Инвертирование теста потребует помещения дополнительной инструкции во внутренний цикл, что повлияет на каждую итерацию цикла. Кроме того, может оказаться невозможным изменить порядок сравнения, потому что это, как правило, архитектуры накопителей, и выливание аккумулятора в память было бы значительно дороже, чем просто добавление дополнительной команды условного перехода.
Lucas 28 авг. 2012, в 01:48
1

Лукас: @Jon может означать оптимизацию A < (B + 1) если B - константа.
jfs 28 авг. 2012, в 06:07
43

+1 Это единственный ответ, который объясняет, почему автор мог написать то, что сделал.
Leo 28 авг. 2012, в 07:25
1

Мне нравится этот ответ, потому что он напоминает мне о забаве, которую я получил с 6502, и о том, как много мне не хватало, чтобы подумать о флагах после того, как я перешел на C. Это также демонстрирует, что вопрос глубже и интереснее, чем большинство людей дали ему. кредит.
hplbsh 28 авг. 2012, в 17:20
27

Даже на 8080 тест <= может быть реализован в одной инструкции с заменой операндов и проверкой на not < (эквивалентно >= ). Это желаемое <= с замененными операндами: cmp B,A; bcs addr . Вот почему этот тест был опущен Intel, они посчитали его избыточным, и вы не могли позволить себе лишние инструкции в то время :-)
Gunther Piez 29 авг. 2012, в 11:10
2

Я почти уверен, что некоторые из этих архитектур все еще используются встраиваемыми системами, поэтому даже если они родились в 80-х годах, они не обязательно умирали там.
hippietrail 31 авг. 2012, в 17:48
1

@hirschhornsalz Вы абсолютно правы. Я не уверен, что существует какая-либо архитектура и сценарий, где потребуется этот двойной тест.
Jonathon Reinhart 07 июнь 2013, в 05:44
0

@JonathonReinhart ты в принципе прав. Даже в 80-х годах оптимизатор глазков мог бы инвертировать сравнение или переупорядочивать ветви кода if/else чтобы исключить дополнительный тест. Но наивный компилятор или неопытный программист на ассемблере могут по-прежнему создавать такой вывод.
Lucas 07 июнь 2013, в 16:40
0

@ Лукас: На самом деле, это не так для 6502 (и 65816). 6502 имеет две инструкции сравнения ветвей, представляющие интерес в этом случае: BCC и BCS. BCC работает как> =, а BCS работает как <. Например, LDA $ 01: CMP $ 02: метка BCS реализует <. Если вам нужно <=, вы можете просто поменять аргументы - LDA $ 02: CMP $ 01: метка BCC
Konrad Borowski 17 окт. 2013, в 15:32
0

@GlitchMr: Да, 6502 имеет отрицательную форму теста флага переноса, но я попытался подчеркнуть необходимость двух отдельных инструкций для проверки флага переноса (BCC / BCS) и флага нуля (BEQ / BNE). ) поскольку 6502 не имеет инструкции для одновременного тестирования нескольких значений регистра P. Наличие пары BCC / BCS делает тривиальным инвертирование сравнения без необходимости изменять значение в аккумуляторе.
Lucas 17 окт. 2013, в 17:52
1

@hirschhornsalz: Инвертирование операндов - это стандартная техника на 8080, но различные факторы могут помочь лучше сначала оценить определенный операнд. Например, задано static unsigned char x; выражение x < 20 можно оценить как ld a,(x) / cmp 20 / jnc nope но для изменения операндов x > 20 потребуется что-то вроде ld a,20 / ld hl,x / cmp (hl) / jnc nope . Лучше было бы сохранить порядок, но заменить x <= 21 : ld a,(x) / cmp 21 / jc nope .
supercat 27 окт. 2017, в 15:56
0

Как сказал суперкат, умные компиляторы могут и делают компиляции C ++ в эффективный asm, используя различные приемы. Если любой операнд является константой времени компиляции, он может сделать asm, который проверяет x < 21 вместо x <= 20 . Или на x86, возможно, компиляторы решат сделать константы меньшими, чтобы они соответствовали 8-битному немедленному знаку вместо 32-битного немедленного. например, x <= 127 вместо x < 128 . Но если обе переменные времени выполнения, for( ... ; i < size ;) гарантированно не является бесконечным циклом, а i <= size может быть (для беззнаковых)! Это может победить оптимизации.
Peter Cordes 20 янв. 2019, в 10:20

Показать ещё 16 комментариев

89

Предполагая, что мы говорим о внутренних целых типах, нет возможного способа быть быстрее другого. Они, очевидно, семантически идентичны. Они оба просят компилятор сделать то же самое. Только ужасно разбитый компилятор сгенерировал бы неполный код для одного из них.

Если была некоторая платформа, где < была быстрее, чем <= для простых целых типов, компилятор всегда должен преобразовывать <= в < для констант. Любой компилятор, который не просто был бы плохим компилятором (для этой платформы).

David Schwartz 27 авг. 2012, в 02:54

6

+1 согласен Ни < ни <= имеют скорости, пока компилятор не решит, какую скорость они будут иметь. Это очень простая оптимизация для компиляторов, если учесть, что они, как правило, уже выполняют оптимизацию мертвого кода, оптимизацию хвостовых вызовов, поднятие цикла (иногда развертывание), автоматическое распараллеливание различных циклов и т. Д. Зачем тратить время на обдумывание преждевременной оптимизации ? Запустите прототип, профилируйте его, чтобы определить, где лежат наиболее существенные оптимизации, выполните эти оптимизации в порядке значимости и снова выполните профиль для измерения прогресса ...
autistic 10 июнь 2013, в 02:52
0

Есть еще некоторые крайние случаи, когда сравнение с одним постоянным значением может быть медленнее при <=, например, когда преобразование из (a < C) в (a <= C-1) (для некоторой константы C ) приводит к тому, что C будет сложнее кодировать в наборе команд. Например, набор команд может быть способен представлять константы со знаком от -127 до 128 в компактной форме в сравнениях, но константы вне этого диапазона должны загружаться с использованием либо более длинной, более медленной кодировки, либо полностью другой инструкции. Таким образом, сравнение типа (a < -127) может не иметь прямого преобразования.
BeeOnRope 16 июнь 2016, в 02:18
0

@BeeOnRope Проблема заключалась не в том, может ли выполнение операций, которые отличались из-за наличия в них разных констант, влиять на производительность, но могло ли выражение производительности одной и той же операции с использованием разных констант повлиять на производительность. Таким образом, мы не сравниваем a > 127 с a > 128 потому что у вас там нет выбора, вы используете тот, который вам нужен. Мы сравниваем a > 127 с a >= 128 , которые не могут требовать другой кодировки или разных инструкций, потому что они имеют одну и ту же таблицу истинности. Любое кодирование одного равно кодированию другого.
David Schwartz 16 июнь 2016, в 04:36
0

Я в общих чертах отвечал на ваше утверждение, что «Если была какая-то платформа, где [<= было медленнее], компилятор всегда должен преобразовывать <= в < для констант». Насколько я знаю, это преобразование предполагает изменение константы. Например, a <= 42 компилируется как a < 43 потому что < быстрее. В некоторых крайних случаях такое преобразование не будет плодотворным, поскольку новая константа может потребовать большего или меньшего количества инструкций. Конечно, a > 127 и a >= 128 эквивалентны, и компилятор должен кодировать обе формы (одинаковым) самым быстрым способом, но это не противоречит тому, что я сказал.
BeeOnRope 16 июнь 2016, в 20:36

Показать ещё 2 комментария

63

Я вижу, что это не так. Компилятор генерирует один и тот же машинный код в каждом условии с другим значением.

if(a < 901)
cmpl  $900, -4(%rbp)
jg .L2

if(a <=901)
cmpl  $901, -4(%rbp)
jg .L3

Мой пример if - это GCC на платформе x86_64 на Linux.

Писатели-компиляторы - довольно умные люди, и они думают об этих вещах и многих других, большинство из нас воспринимают как должное.

Я заметил, что если он не является константой, то тот же машинный код генерируется в любом случае.

int b;
if(a < b)
cmpl  -4(%rbp), %eax
jge   .L2

if(a <=b)
cmpl  -4(%rbp), %eax
jg .L3

Adrian Cornish 27 авг. 2012, в 03:10

9

Обратите внимание, что это относится к x86.
Michael Petrotta 27 авг. 2012, в 02:17
0

На самом деле - я должен был сказать это - но любой компилятор может быть достаточно умен для генерации этого кода
Adrian Cornish 27 авг. 2012, в 02:19
10

Я думаю, что вы должны использовать это, if(a <=900) чтобы продемонстрировать, что он генерирует точно такой же asm :)
Lipis 27 авг. 2012, в 02:22
0

@Lipis Извините - я не понимаю ваш комментарий - не могли бы вы уточнить - я показал asm, сгенерированный из обоих утверждений if
Adrian Cornish 27 авг. 2012, в 02:23
2

@AdrianCornish Извините ... я его отредактировал .. он более или менее такой же ... но если вы измените второй, если на <= 900, то код asm будет точно таким же :) Теперь он почти такой же ... но вы знаю .. для ОКР :)
Lipis 27 авг. 2012, в 02:25
0

Ах, я понял - извините, я пропустил другое значение в исходном вопросе OP - я хотел сказать, что компилятор отредактировал значение в сгенерированном ASM.
Adrian Cornish 27 авг. 2012, в 02:28
1

@AdrianCornish Ваши два утверждения - это не два утверждения, как в вопросе. У одного из них 900, а не 901.
Qsario 27 авг. 2012, в 02:28
0

@ Qsario совершенно верно - я пропустил это - все еще остается точка зрения, что компилятор редактирует значения
Adrian Cornish 27 авг. 2012, в 02:29
1

Как насчет if (a <= INT_MAX) ?
Boann 27 авг. 2012, в 02:30
0

Вы правы, но было бы хорошо отредактировать в другом оригинальном утверждении также для полноты :)
Qsario 27 авг. 2012, в 02:31
0

@AdrianCornish Да, вы абсолютно правы .. и мы на одной странице :) Я редактировал это .. надеюсь, вы не возражаете ..
Lipis 27 авг. 2012, в 02:31
3

@Boann Это может быть уменьшено до if (true) и полностью исключено.
Qsario 27 авг. 2012, в 02:32
1

@Qsario Я думаю, что это запутывает, потому что в этом случае оба asm-предложения становятся cmpl $900, -4(%rbp) поэтому немного сложнее увидеть разницу. Поскольку я показываю ассемблер из моего кода, а не из OP, это не является ошибкой - но подчеркивает ошибку в книге
Adrian Cornish 27 авг. 2012, в 02:33
0

пожалуйста, обратите внимание на следующее: typedef int a , typedef int b , ac = 1; bd = 2; if( c < d ) & if( c <= d ) поскольку c и d - это разные типы
Vinícius Magalhães Horta 27 авг. 2012, в 02:33
0

@ViniyoShouta Почему?
Adrian Cornish 27 авг. 2012, в 02:34
0

Я хотел увидеть ASM сгенерированный код для него. Честно говоря, есть еще много примеров, которые я хотел бы увидеть сгенерированный ASM код, особенно о char s
Vinícius Magalhães Horta 27 авг. 2012, в 02:35
0

@ViniyoShouta Попробуйте сами - g++ --save-temps myfile.cc предоставит вам файл .s чтобы вы могли прочитать asm для себя :-)
Adrian Cornish 27 авг. 2012, в 02:37
0

@Lipis Справедливое редактирование, но я рад, что вы изменили его, так как я думаю, что оно лучше подчеркивает разницу. Я получаю ОКР - вот почему мы программисты :-)
Adrian Cornish 27 авг. 2012, в 02:54
4

Никто не указал, что эта оптимизация относится только к постоянным сравнениям . Я могу гарантировать, что это не будет сделано для сравнения двух переменных.
Jonathon Reinhart 27 авг. 2012, в 03:05
0

@JonathonReinhart Полностью согласен - но вопрос ОП был с константами. Но я вижу, что сгенерированный asm такой же - за исключением того, что LHS перемещается в регистр cmpl -4(%rbp), %eax
Adrian Cornish 27 авг. 2012, в 03:06
1

@AdrianCornish вы не показываете всю картину. Это просто сравнение, которое устанавливает флаги, которые всегда одинаковы. Вы по-прежнему будете иметь Jcc инструкцию Jcc зависимости от условия. Смотрите мой пример.
Jonathon Reinhart 27 авг. 2012, в 06:37
0

@JonathonReinhart Хороший вопрос. Отредактировано для включения операторов перехода.
Adrian Cornish 28 авг. 2012, в 00:13
0

Кстати, gcc уменьшает величину немедленных, когда это возможно, потому что, например, для x86 немедленному из -128 .. 127 требуется только 1 байт вместо 4. (Нет никакого вреда, если всегда применять преобразование для констант времени компиляции, кроме может быть, на ARM, где все установленные биты ближе друг к другу, с большей вероятностью сделают его кодируемым как непосредственный ... Было бы интересно попробовать там с x < 0x00f000 и посмотреть, не превратился ли он в x <= 0x00efff )
Peter Cordes 20 янв. 2019, в 10:26

Показать ещё 21 комментарий

52

Для кода с плавающей точкой сравнение <= действительно может быть медленнее (по одной инструкции) даже на современных архитектурах. Здесь первая функция:

int compare_strict(double a, double b) { return a < b; }

В PowerPC сначала выполняется сравнение с плавающей запятой (которое обновляет cr, регистр условий), а затем переводит регистр условий в GPR, сдвигает бит "сравнивается меньше", а затем возвращается. Он принимает четыре инструкции.

Теперь рассмотрим эту функцию:

int compare_loose(double a, double b) { return a <= b; }

Для этого требуется такая же работа, как compare_strict выше, но теперь есть два бита интереса: "было меньше" и "было равно". Для этого требуется дополнительная команда (cror - регистр условия побитовое ИЛИ), чтобы объединить эти два бита в один. Поэтому compare_loose требуется пять инструкций, а compare_strict - четыре.

Вы можете подумать, что компилятор может оптимизировать вторую функцию следующим образом:

int compare_loose(double a, double b) { return ! (a > b); }

Однако это неправильно обрабатывает NaN. NaN1 <= NaN2 и NaN1 > NaN2 должны оцениваться как false.

ridiculous_fish 27 авг. 2012, в 18:36

0

К счастью, это не работает так на x86 (x87). fucomip устанавливает ZF и CF.
Jonathon Reinhart 27 авг. 2012, в 20:30
3

@JonathonReinhart: Я думаю , вы недоразумение , что делает PowerPC - состояние регистра cr эквивалентно флагам , как ZF и CF на x86. (Хотя CR более гибок.) О чем говорит плакат, так это о переносе результата в GPR: для этого требуется две инструкции на PowerPC, но в x86 есть инструкция условного перемещения.
Dietrich Epp 28 авг. 2012, в 06:19
0

@DietrichEpp То, что я хотел добавить после моего заявления, было: что вы можете сразу же перейти на основе значения EFLAGS. Извините, что не ясно.
Jonathon Reinhart 28 авг. 2012, в 07:16
1

@JonathonReinhart: Да, и вы также можете сразу же перейти на основе значения CR. Ответ не говорит о прыжках, отсюда и дополнительные инструкции.
Dietrich Epp 28 авг. 2012, в 07:38

Показать ещё 2 комментария

34

Возможно, автор этой неназванной книги прочитал, что a > 0 работает быстрее, чем a >= 1, и считает, что это истинно универсально.

Но это связано с тем, что задействован 0 (поскольку CMP может, в зависимости от архитектуры, заменить, например, на OR), а не из-за <.

glglgl 27 авг. 2012, в 14:30

1

Конечно, в «отладочной» сборке, но для (a >= 1) медленного запуска (a > 0) потребуется плохой компилятор, поскольку первый может быть тривиально преобразован во второй с помощью оптимизатора.
BeeOnRope 16 июнь 2016, в 02:22
1

@BeeOnRope Иногда меня удивляет, какие сложные вещи оптимизатор может оптимизировать, и какие простые вещи он не может сделать.
glglgl 16 июнь 2016, в 07:31
1

Действительно, и всегда стоит проверять вывод asm для тех немногих функций, где это имеет значение. Тем не менее, приведенное выше преобразование является очень простым и выполняется даже в простых компиляторах в течение десятилетий.
BeeOnRope 16 июнь 2016, в 20:27

Показать ещё 1 комментарий

31

По крайней мере, если бы это было так, то компилятор мог бы тривиально оптимизировать <= b to! (a > b), и поэтому даже если бы сравнение было фактически медленнее, со всеми, кроме самого наивного компилятора, не заметите разницы.

Eliot Ball 27 авг. 2012, в 09:45

0

Почему! (A> b) является оптимизированной версией a <= b. Разве! (A> b) 2 операции в одном?
Abhishek Singh 07 апр. 2015, в 11:33
4

@AbhishekSingh NOT просто создается другой инструкцией ( je vs. jne )
Pavel Gatnar 14 апр. 2015, в 16:03

15

Они имеют одинаковую скорость. Возможно, в какой-то особой архитектуре, что он/она сказал правильно, но в семье x86, по крайней мере, я знаю, что они одинаковы. Потому что для этого CPU выполнит субстрат (a - b), а затем проверит флаги регистра флага. Два бита этого регистра называются ZF (нулевой флаг) и SF (флаг знака), и это выполняется за один цикл, потому что он будет делать это с одной операцией маски.

Masoud 27 авг. 2012, в 10:21

13

Это будет сильно зависеть от базовой архитектуры, с которой компилируется C. Некоторые процессоры и архитектуры могут иметь явные инструкции для равных или меньших и равных, которые выполняются в разных количествах циклов.

Это было бы довольно необычно, хотя компилятор мог бы обойти это, делая его несущественным.

Telgin 27 авг. 2012, в 04:04

1

ЕСЛИ была разница в циклах. 1) это не будет обнаружено 2) Любой компилятор, достойный своей соли, уже будет преобразовывать медленную форму в более быструю, не меняя смысла кода. Таким образом, полученная инструкция была бы идентична.
Martin York 27 авг. 2012, в 07:00
0

Согласитесь полностью, это будет довольно банальная и глупая разница в любом случае. Конечно, нечего упоминать в книге, которая должна быть независимой от платформы.
Telgin 28 авг. 2012, в 03:46
0

@ lttlrck: я понял. Мне понадобилось время (глупый я). Нет, они не обнаружимы, потому что происходит так много других вещей, которые делают их измерения невозможными. Процессор останавливается / отсутствует кэш / сигналы / обмен процессами. Таким образом, в нормальной ситуации ОС вещи на уровне одного цикла не могут быть физически измеримыми. Если вы можете устранить все эти помехи из ваших измерений (запустить их на микросхеме с встроенной памятью и без ОС), то у вас все еще есть детализация таймеров, о которых нужно беспокоиться, но теоретически, если вы запустите его достаточно долго, вы сможете что-то увидеть.
Martin York 29 авг. 2012, в 06:57

Показать ещё 1 комментарий

11

TL; DR ответ

Для большинства комбинаций архитектуры, компилятора и языка это не будет быстрее.

Полный ответ

Другие ответы были сконцентрированы на архитектуре x86, и я не знаю архитектуру ARM (как, кажется, ваш пример ассемблера) достаточно хорошо, чтобы комментировать конкретно сгенерированный код, но это пример микрооптимизации, которая очень архитектурна конкретный, и с такой же вероятностью будет антиоптимизацией, как и оптимизацией.

Таким образом, я бы предположил, что такого рода микрооптимизация является примером программирования культового груза, а не лучшей практикой разработки программного обеспечения.

Вероятно, есть некоторые архитектуры, где это является оптимизацией, но я знаю, по крайней мере, одну архитектуру, где может быть верно обратное. В почтенной архитектуре Транспутера инструкции машинного кода были только равны и больше или равны, поэтому все сравнения должны были быть построены из этих примитивов.

Даже тогда, почти во всех случаях, компилятор мог упорядочить инструкции оценки таким образом, чтобы на практике ни одно сравнение не имело никакого преимущества перед любым другим. В худшем случае, возможно, потребуется добавить обратную инструкцию (REV), чтобы поменять местами два верхних элемента в стеке операндов. Это была однобайтовая инструкция, для выполнения которой требовался один цикл, поэтому были наименьшие возможные издержки.

Является ли микрооптимизация, подобная этой, оптимизацией или антиоптимизацией, зависит от конкретной архитектуры, которую вы используете, поэтому обычно плохая идея привыкнуть к использованию микрооптимизаций, специфичных для архитектуры, иначе вы можете инстинктивно используйте один, когда это неуместно, и, похоже, именно это и защищает книга, которую вы читаете.

Mark Booth 31 авг. 2012, в 18:48

6

Вы не сможете заметить разницу, даже если она есть. Кроме того, на практике вам нужно будет сделать дополнительные a + 1 или a - 1, чтобы сделать условие стоящим, если вы не собираетесь использовать некоторые магические константы, что является очень плохой практикой.

shinkou 27 авг. 2012, в 03:39

1

Что плохая практика? Увеличивать или уменьшать счетчик? Как вы храните индексную нотацию тогда?
jcolebrand 27 авг. 2012, в 14:22
5

Он имеет в виду, если вы делаете сравнение двух типов переменных. Конечно, это просто, если вы устанавливаете значение для цикла или чего-то еще. Но если у вас есть x <= y, а y неизвестно, было бы медленнее «оптимизировать» его до x <y + 1
JustinDanielson 27 авг. 2012, в 21:48
0

@JustinDanielson согласился. Не говоря уже о некрасивых, запутанных и т. Д.
Jonathon Reinhart 27 авг. 2012, в 23:49

Показать ещё 1 комментарий

3

Вы можете сказать, что строка правильная на большинстве языков сценариев, так как дополнительный символ приводит к немного более медленной обработке кода. Однако, как указал главный ответ, он не должен иметь эффекта в С++, и все, что делается с языком сценариев, вероятно, не связано с оптимизацией.

Ecksters 29 авг. 2012, в 04:23

0

Я несколько не согласен. В конкурентном программировании языки сценариев часто предлагают самое быстрое решение проблемы, но для получения правильного решения необходимо применять правильные методы (читай: оптимизация).
Tyler Crompton 05 сен. 2012, в 00:59

1

Когда я писал этот ответ, я рассматривал только заглавный вопрос о <vs. <= в целом, а не конкретный пример константы a < 901 против a <= 900. Многие компиляторы всегда уменьшают величину констант путем преобразования между < и <=, например, потому что непосредственный операнд x86 имеет более короткую 1-байтовую кодировку для -128.. 127.

Для ARM и особенно для AArch64 возможность кодирования как непосредственного зависит от возможности поворота узкого поля в любую позицию в слове. Таким образом, cmp w0, #0x00f000 будет кодируемым, а cmp w0, #0x00effff может и не быть. Таким образом, правило сравнения с константой времени компиляции не всегда применимо к AArch64.

<vs. <= в целом, в том числе для переменных во время выполнения

На языке ассемблера на большинстве машин сравнение для <= имеет ту же стоимость, что и сравнение для <. Это применимо, независимо от того, веткитесь ли вы на нем, логизируете его для создания целого числа 0/1 или используете его в качестве предиката для операции выбора без ответвлений (например, CMOV x86). Другие ответы касались только этой части вопроса.

Но этот вопрос касается операторов C++, входных данных для оптимизатора. Обычно они оба одинаково эффективны; совет из книги звучит совершенно фиктивно, потому что компиляторы всегда могут преобразовать сравнение, которое они реализуют в asm. Но есть по крайней мере одно исключение, когда использование <= может случайно создать что-то, что компилятор не может оптимизировать.

В качестве условия цикла существуют случаи, когда <= качественно отличается от <, когда это мешает компилятору доказать, что цикл не является бесконечным. Это может иметь большое значение, отключив автоматическую векторизацию.

Неподписанное переполнение четко определено как обход по основанию 2, в отличие от подписанного переполнения (UB). Счетчики циклов со знаком, как правило, защищены от этого, поскольку компиляторы, которые оптимизируют на основе UB со ++i <= size переполнения, не происходят: ++i <= size всегда в конечном итоге станет ложным. (Что каждый программист C должен знать о неопределенном поведении)

void foo(unsigned size) {
    unsigned upper_bound = size - 1;  // or any calculation that could produce UINT_MAX
    for(unsigned i=0 ; i <= upper_bound ; i++)
        ...

Компиляторы могут оптимизировать только таким образом, чтобы сохранить (определенное и юридически наблюдаемое) поведение источника C++ для всех возможных входных значений, кроме тех, которые приводят к неопределенному поведению.

(Простой i <= size тоже создал бы проблему, но я думал, что вычисление верхней границы было более реалистичным примером случайного введения возможности бесконечного цикла для ввода, который вас не интересует, но который должен учитывать компилятор. )

В этом случае size=0 приводит к upper_bound=UINT_MAX, а i <= UINT_MAX всегда имеет значение true. Так что этот цикл бесконечен для size=0, и компилятор должен это учитывать, даже если вы, как программист, вероятно, никогда не намереваетесь передать size = 0. Если компилятор может встроить эту функцию в вызывающую функцию, где он может доказать, что size = 0 невозможен, то отлично, он может оптимизировать так же, как и для i < size.

Asm, как if(!size) skip the loop; do{...}while(--size); в do{...}while(--size); это один обычно эффективный способ оптимизировать цикл for( i<size ), если фактическое значение i не требуется внутри цикла (Почему циклы всегда компилируются в стиле "do... while" (переход через хвост)?).

Но это делает {}, хотя не может быть бесконечным: если введено с size==0, мы получим 2 ^ n итераций. (Итерация по всем целым числам без знака в цикле for C позволяет выразить цикл по всем целым числам без знака, включая ноль, но без флага переноса это нелегко, как в asm.)

Учитывая возможность оборота счетчика циклов, современные компиляторы часто просто "сдаются" и не оптимизируют почти так агрессивно.

Пример: сумма целых чисел от 1 до n

Использование unsigned i <= n побеждает распознавание идиома clang, которое оптимизирует циклы sum(1.. n) с замкнутой формой на основе формулы Гаусса n * (n+1)/2.

unsigned sum_1_to_n_finite(unsigned n) {
    unsigned total = 0;
    for (unsigned i = 0 ; i < n+1 ; ++i)
        total += i;
    return total;
}

unsigned sum_1_to_n(unsigned n) {%0A++++unsigned total = 0;%0A++++for (unsigned я = 0+; i<%3Dn+; ++i){%0A++++ total += i;%0A++++}%0A++++return total; } unsigned sum_1_to_n_finite(unsigned n) {%0A++++unsigned total = 0;%0A++++for (unsigned я = 0+; я < n%2B1+; ++i){%0A++++ total += i;%0A++++}%0A++++return total; } '),l:'5',n:'0',o:'C++ source #1',t:'0')),k:42.03135828865001,l:'4',m:100,n:'0',o:'',s:0,t:'0'),(g:!((h:compiler,i:(compiler:clang700,filters:(b:'0',binary:'1',commentOnly:'0',demangle:'0',directives:'0',execute:'1',intel:'0',libraryCode:'1',trim:'1'),fontScale:1.2899450879999999,lang:c++,libs:!(),options:'-O3 -Wall -Wextra -march=haswell',source:1),l:'5',n:'0',o:'x86-64+Clang 7.0.0+(Editor #1,+Compiler+#2)+C++',t:'0')),header:(),k:28.984320855674994,l:'4',n:'0',o:'',s:0,t:'0'),(g:!((h:compiler,i:(compiler:g82,filters:(b:'0',binary:'1',commentOnly:'0',demangle:'0',directives:'0',execute:'1',intel:'0',libraryCode:'1',trim:'1'),fontScale:1.2899450879999999,lang:c++,libs:!(),options:'-O3 -Wall -Wextra -fverbose-asm',source:1),l:'5',n:'0',o:'x86-64 gcc 8.2+(Editor #1,+Compiler+#1)+C++',t:'0')),header:(),k:28.984320855674994,l:'4',m:100,n:'0',o:'',s:0,t:'0')),l:'2',n:'0',o:'',t:'0')),version:4 rel="nofollow noreferrer">x86-64 asm из clang7.0 и gcc8.2 в проводнике компилятора Godbolt

 # clang7.0 -O3 closed-form
    cmp     edi, -1       # n passed in EDI: x86-64 System V calling convention
    je      .LBB1_1       # if (n == UINT_MAX) return 0;  // C++ loop runs 0 times
          # else fall through into the closed-form calc
    mov     ecx, edi         # zero-extend n into RCX
    lea     eax, [rdi - 1]   # n-1
    imul    rax, rcx         # n * (n-1)             # 64-bit
    shr     rax              # n * (n-1) / 2
    add     eax, edi         # n + (stuff / 2) = n * (n+1) / 2   # truncated to 32-bit
    ret          # computed without possible overflow of the product before right shifting
.LBB1_1:
    xor     eax, eax
    ret

Но для наивной версии мы просто получаем тупую петлю от лязга.

unsigned sum_1_to_n_naive(unsigned n) {
    unsigned total = 0;
    for (unsigned i = 0 ; i<=n ; ++i)
        total += i;
    return total;
}

# clang7.0 -O3
sum_1_to_n(unsigned int):
    xor     ecx, ecx           # i = 0
    xor     eax, eax           # retval = 0
.LBB0_1:                       # do {
    add     eax, ecx             # retval += i
    add     ecx, 1               # ++1
    cmp     ecx, edi
    jbe     .LBB0_1            # } while( i<n );
    ret

GCC в любом случае не использует замкнутую форму, поэтому выбор условия цикла на самом деле не повредит; он автоматически векторизуется с добавлением целочисленного значения SIMD, параллельно выполняя значения 4 i в элементах регистра XMM.

# "naive" inner loop
.L3:
    add     eax, 1       # do {
    paddd   xmm0, xmm1    # vect_total_4.6, vect_vec_iv_.5
    paddd   xmm1, xmm2    # vect_vec_iv_.5, tmp114
    cmp     edx, eax      # bnd.1, ivtmp.14     # bound and induction-variable tmp, I think.
    ja      .L3 #,       # }while( n > i )

 "finite" inner loop
  # before the loop:
  # xmm0 = 0 = totals
  # xmm1 = {0,1,2,3} = i
  # xmm2 = set1_epi32(4)
 .L13:                # do {
    add     eax, 1       # i++
    paddd   xmm0, xmm1    # total[0..3] += i[0..3]
    paddd   xmm1, xmm2    # i[0..3] += 4
    cmp     eax, edx
    jne     .L13      # }while( i != upper_limit );

     then horizontal sum xmm0
     and peeled cleanup for the last n%3 iterations, or something.

У этого также есть простой скалярный цикл, который я думаю, что он использует для очень маленького n, и/или для случая бесконечного цикла.

Кстати, оба этих цикла тратят впустую инструкцию (и моп на процессорах семейства Sandybridge) на издержки цикла. sub eax,1/jnz вместо add eax,1/cmp/jcc будет более эффективным. 1 моп вместо 2 (после макро-слияния sub/jcc или cmp/jcc). Код после обоих циклов безоговорочно записывает EAX, поэтому он не использует окончательное значение счетчика цикла.

Peter Cordes 20 янв. 2019, в 12:27

0

Хороший надуманный пример. А как насчет вашего другого комментария о возможном влиянии на исполнение ордеров из-за использования EFLAGS? Это чисто теоретически или действительно может случиться так, что JB приведет к лучшему конвейеру, чем JBE?
rustyx 20 янв. 2019, в 12:05
0

@rustyx: я комментировал это где-то под другим ответом? Компиляторы не собираются выдавать код, который вызывает частичные остановки флагов, и уж точно не для C < или <= . Но конечно, test ecx,ecx / bt eax, 3 / jbe будет перескакивать, если ZF установлен (ecx == 0) или если установлен CF (бит 3 EAX == 1), вызывая частичное срыв флага на большинстве процессоров потому что флаги, которые он читает, не все взяты из последней инструкции, чтобы написать какие-либо флаги. На семействе Сэндибридж он не останавливается, просто нужно вставить объединяющий элемент. cmp / test записывает все флаги, но bt оставляет ZF без изменений. felixcloutier.com/x86/bt
Peter Cordes 20 янв. 2019, в 12:23

-8

На самом деле, они будут точно такой же скоростью, потому что на уровне сборки они берут одну строку. Например:

jl ax,dx (перескакивает, если AX меньше DX)
jle ax,dx (прыгает, если AX меньше или равно DX)

Нет, нет, не быстрее. Но если вы хотите получить техническую технику, я думаю, если бы вы проверили ее на текущем уровне электрона, это было бы немного быстрее, но не где-нибудь рядом со скоростью, которую вы заметили бы.

Kevin Usher 31 авг. 2012, в 16:04

Ещё вопросы

Я не вижу причин, по которым этот вопрос должен быть закрыт (и особенно не удален, как показывают голоса в настоящее время), учитывая его историческое значение, качество ответа и тот факт, что другие главные вопросы по эффективности остаются открытыми. Самое большее, это должно быть заблокировано. Кроме того, даже если сам вопрос дезинформирован / наивен, тот факт, что он появился в книге, означает, что первоначальная дезинформация существует где-то в «заслуживающих доверия» источниках, и поэтому этот вопрос конструктивен, поскольку помогает прояснить это.
Вы никогда не говорили нам, на какую книгу вы ссылаетесь.
Ввод < в два раза быстрее, чем ввод <= .
Это отличный вопрос, и было бы интересно узнать, как он работает с использованием интерпретируемого языка, такого как Python. Рассмотреть вопрос о публикации нового вопроса, такого как «Является ли> быстрее, чем> = в Python?» но это можно считать дублирующим вопросом. Руководство приветствуется.
Количество откликов ясно показывает, что есть сотни людей, которые сильно переоптимизируют.
Кроме того, архитектуры, такие как x86, реализуют инструкции, такие как jge , которые проверяют флаги «ноль» и «знак / перенос».
Следует отметить, что в цикле вычислений процесса / функции / программы дополнительная инструкция может иметь значение. Как отметил @greyfade, более важным, чем скорость, является то, что большинство современных процессоров CISC имеют инструкции перехода / перехода, которые проверяют флаги переноса и обнуления, таким образом, все еще используя только одну инструкцию.
Даже если это верно для данной архитектуры. Каковы шансы, что никто из авторов компиляторов никогда не замечал, и добавил оптимизацию, чтобы заменить медленное на более быстрое?
Это верно для 8080. У него есть инструкции, чтобы перейти на ноль и перейти на минус, но ни один из них не может проверить оба одновременно.
Это также относится и к семейству процессоров 6502 и 65816, которое распространяется и на Motorola 68HC11 / 12.
@JonHanna: Это оптимизированная версия. Для цикла инструкция "ветвление-если-равно" встречается только на последней итерации цикла, поэтому ее влияние амортизируется до некоторой доли цикла. Инвертирование теста потребует помещения дополнительной инструкции во внутренний цикл, что повлияет на каждую итерацию цикла. Кроме того, может оказаться невозможным изменить порядок сравнения, потому что это, как правило, архитектуры накопителей, и выливание аккумулятора в память было бы значительно дороже, чем просто добавление дополнительной команды условного перехода.
Лукас: @Jon может означать оптимизацию A < (B + 1) если B - константа.
+1 Это единственный ответ, который объясняет, почему автор мог написать то, что сделал.
Мне нравится этот ответ, потому что он напоминает мне о забаве, которую я получил с 6502, и о том, как много мне не хватало, чтобы подумать о флагах после того, как я перешел на C. Это также демонстрирует, что вопрос глубже и интереснее, чем большинство людей дали ему. кредит.
Даже на 8080 тест <= может быть реализован в одной инструкции с заменой операндов и проверкой на not < (эквивалентно >= ). Это желаемое <= с замененными операндами: cmp B,A; bcs addr . Вот почему этот тест был опущен Intel, они посчитали его избыточным, и вы не могли позволить себе лишние инструкции в то время :-)
Я почти уверен, что некоторые из этих архитектур все еще используются встраиваемыми системами, поэтому даже если они родились в 80-х годах, они не обязательно умирали там.
@hirschhornsalz Вы абсолютно правы. Я не уверен, что существует какая-либо архитектура и сценарий, где потребуется этот двойной тест.
@JonathonReinhart ты в принципе прав. Даже в 80-х годах оптимизатор глазков мог бы инвертировать сравнение или переупорядочивать ветви кода if/else чтобы исключить дополнительный тест. Но наивный компилятор или неопытный программист на ассемблере могут по-прежнему создавать такой вывод.
@ Лукас: На самом деле, это не так для 6502 (и 65816). 6502 имеет две инструкции сравнения ветвей, представляющие интерес в этом случае: BCC и BCS. BCC работает как> =, а BCS работает как <. Например, LDA $ 01: CMP $ 02: метка BCS реализует <. Если вам нужно <=, вы можете просто поменять аргументы - LDA $ 02: CMP $ 01: метка BCC
@GlitchMr: Да, 6502 имеет отрицательную форму теста флага переноса, но я попытался подчеркнуть необходимость двух отдельных инструкций для проверки флага переноса (BCC / BCS) и флага нуля (BEQ / BNE). ) поскольку 6502 не имеет инструкции для одновременного тестирования нескольких значений регистра P. Наличие пары BCC / BCS делает тривиальным инвертирование сравнения без необходимости изменять значение в аккумуляторе.
@hirschhornsalz: Инвертирование операндов - это стандартная техника на 8080, но различные факторы могут помочь лучше сначала оценить определенный операнд. Например, задано static unsigned char x; выражение x < 20 можно оценить как ld a,(x) / cmp 20 / jnc nope но для изменения операндов x > 20 потребуется что-то вроде ld a,20 / ld hl,x / cmp (hl) / jnc nope . Лучше было бы сохранить порядок, но заменить x <= 21 : ld a,(x) / cmp 21 / jc nope .
Как сказал суперкат, умные компиляторы могут и делают компиляции C ++ в эффективный asm, используя различные приемы. Если любой операнд является константой времени компиляции, он может сделать asm, который проверяет x < 21 вместо x <= 20 . Или на x86, возможно, компиляторы решат сделать константы меньшими, чтобы они соответствовали 8-битному немедленному знаку вместо 32-битного немедленного. например, x <= 127 вместо x < 128 . Но если обе переменные времени выполнения, for( ... ; i < size ;) гарантированно не является бесконечным циклом, а i <= size может быть (для беззнаковых)! Это может победить оптимизации.
+1 согласен Ни < ни <= имеют скорости, пока компилятор не решит, какую скорость они будут иметь. Это очень простая оптимизация для компиляторов, если учесть, что они, как правило, уже выполняют оптимизацию мертвого кода, оптимизацию хвостовых вызовов, поднятие цикла (иногда развертывание), автоматическое распараллеливание различных циклов и т. Д. Зачем тратить время на обдумывание преждевременной оптимизации ? Запустите прототип, профилируйте его, чтобы определить, где лежат наиболее существенные оптимизации, выполните эти оптимизации в порядке значимости и снова выполните профиль для измерения прогресса ...
Есть еще некоторые крайние случаи, когда сравнение с одним постоянным значением может быть медленнее при <=, например, когда преобразование из (a < C) в (a <= C-1) (для некоторой константы C ) приводит к тому, что C будет сложнее кодировать в наборе команд. Например, набор команд может быть способен представлять константы со знаком от -127 до 128 в компактной форме в сравнениях, но константы вне этого диапазона должны загружаться с использованием либо более длинной, более медленной кодировки, либо полностью другой инструкции. Таким образом, сравнение типа (a < -127) может не иметь прямого преобразования.
@BeeOnRope Проблема заключалась не в том, может ли выполнение операций, которые отличались из-за наличия в них разных констант, влиять на производительность, но могло ли выражение производительности одной и той же операции с использованием разных констант повлиять на производительность. Таким образом, мы не сравниваем a > 127 с a > 128 потому что у вас там нет выбора, вы используете тот, который вам нужен. Мы сравниваем a > 127 с a >= 128 , которые не могут требовать другой кодировки или разных инструкций, потому что они имеют одну и ту же таблицу истинности. Любое кодирование одного равно кодированию другого.
Я в общих чертах отвечал на ваше утверждение, что «Если была какая-то платформа, где [<= было медленнее], компилятор всегда должен преобразовывать <= в < для констант». Насколько я знаю, это преобразование предполагает изменение константы. Например, a <= 42 компилируется как a < 43 потому что < быстрее. В некоторых крайних случаях такое преобразование не будет плодотворным, поскольку новая константа может потребовать большего или меньшего количества инструкций. Конечно, a > 127 и a >= 128 эквивалентны, и компилятор должен кодировать обе формы (одинаковым) самым быстрым способом, но это не противоречит тому, что я сказал.
Обратите внимание, что это относится к x86.
На самом деле - я должен был сказать это - но любой компилятор может быть достаточно умен для генерации этого кода
Я думаю, что вы должны использовать это, if(a <=900) чтобы продемонстрировать, что он генерирует точно такой же asm :)
@Lipis Извините - я не понимаю ваш комментарий - не могли бы вы уточнить - я показал asm, сгенерированный из обоих утверждений if
@AdrianCornish Извините ... я его отредактировал .. он более или менее такой же ... но если вы измените второй, если на <= 900, то код asm будет точно таким же :) Теперь он почти такой же ... но вы знаю .. для ОКР :)
Ах, я понял - извините, я пропустил другое значение в исходном вопросе OP - я хотел сказать, что компилятор отредактировал значение в сгенерированном ASM.
@AdrianCornish Ваши два утверждения - это не два утверждения, как в вопросе. У одного из них 900, а не 901.
@ Qsario совершенно верно - я пропустил это - все еще остается точка зрения, что компилятор редактирует значения
Вы правы, но было бы хорошо отредактировать в другом оригинальном утверждении также для полноты :)
@AdrianCornish Да, вы абсолютно правы .. и мы на одной странице :) Я редактировал это .. надеюсь, вы не возражаете ..
@Boann Это может быть уменьшено до if (true) и полностью исключено.
@Qsario Я думаю, что это запутывает, потому что в этом случае оба asm-предложения становятся cmpl $900, -4(%rbp) поэтому немного сложнее увидеть разницу. Поскольку я показываю ассемблер из моего кода, а не из OP, это не является ошибкой - но подчеркивает ошибку в книге
пожалуйста, обратите внимание на следующее: typedef int a , typedef int b , ac = 1; bd = 2; if( c < d ) & if( c <= d ) поскольку c и d - это разные типы
Я хотел увидеть ASM сгенерированный код для него. Честно говоря, есть еще много примеров, которые я хотел бы увидеть сгенерированный ASM код, особенно о char s
@ViniyoShouta Попробуйте сами - g++ --save-temps myfile.cc предоставит вам файл .s чтобы вы могли прочитать asm для себя :-)
@Lipis Справедливое редактирование, но я рад, что вы изменили его, так как я думаю, что оно лучше подчеркивает разницу. Я получаю ОКР - вот почему мы программисты :-)
Никто не указал, что эта оптимизация относится только к постоянным сравнениям . Я могу гарантировать, что это не будет сделано для сравнения двух переменных.
@JonathonReinhart Полностью согласен - но вопрос ОП был с константами. Но я вижу, что сгенерированный asm такой же - за исключением того, что LHS перемещается в регистр cmpl -4(%rbp), %eax
@AdrianCornish вы не показываете всю картину. Это просто сравнение, которое устанавливает флаги, которые всегда одинаковы. Вы по-прежнему будете иметь Jcc инструкцию Jcc зависимости от условия. Смотрите мой пример.
@JonathonReinhart Хороший вопрос. Отредактировано для включения операторов перехода.
Кстати, gcc уменьшает величину немедленных, когда это возможно, потому что, например, для x86 немедленному из -128 .. 127 требуется только 1 байт вместо 4. (Нет никакого вреда, если всегда применять преобразование для констант времени компиляции, кроме может быть, на ARM, где все установленные биты ближе друг к другу, с большей вероятностью сделают его кодируемым как непосредственный ... Было бы интересно попробовать там с x < 0x00f000 и посмотреть, не превратился ли он в x <= 0x00efff )
К счастью, это не работает так на x86 (x87). fucomip устанавливает ZF и CF.
@JonathonReinhart: Я думаю , вы недоразумение , что делает PowerPC - состояние регистра cr эквивалентно флагам , как ZF и CF на x86. (Хотя CR более гибок.) О чем говорит плакат, так это о переносе результата в GPR: для этого требуется две инструкции на PowerPC, но в x86 есть инструкция условного перемещения.
@DietrichEpp То, что я хотел добавить после моего заявления, было: что вы можете сразу же перейти на основе значения EFLAGS. Извините, что не ясно.
@JonathonReinhart: Да, и вы также можете сразу же перейти на основе значения CR. Ответ не говорит о прыжках, отсюда и дополнительные инструкции.
Конечно, в «отладочной» сборке, но для (a >= 1) медленного запуска (a > 0) потребуется плохой компилятор, поскольку первый может быть тривиально преобразован во второй с помощью оптимизатора.
@BeeOnRope Иногда меня удивляет, какие сложные вещи оптимизатор может оптимизировать, и какие простые вещи он не может сделать.
Действительно, и всегда стоит проверять вывод asm для тех немногих функций, где это имеет значение. Тем не менее, приведенное выше преобразование является очень простым и выполняется даже в простых компиляторах в течение десятилетий.
Почему! (A> b) является оптимизированной версией a <= b. Разве! (A> b) 2 операции в одном?
@AbhishekSingh NOT просто создается другой инструкцией ( je vs. jne )
ЕСЛИ была разница в циклах. 1) это не будет обнаружено 2) Любой компилятор, достойный своей соли, уже будет преобразовывать медленную форму в более быструю, не меняя смысла кода. Таким образом, полученная инструкция была бы идентична.
Согласитесь полностью, это будет довольно банальная и глупая разница в любом случае. Конечно, нечего упоминать в книге, которая должна быть независимой от платформы.
@ lttlrck: я понял. Мне понадобилось время (глупый я). Нет, они не обнаружимы, потому что происходит так много других вещей, которые делают их измерения невозможными. Процессор останавливается / отсутствует кэш / сигналы / обмен процессами. Таким образом, в нормальной ситуации ОС вещи на уровне одного цикла не могут быть физически измеримыми. Если вы можете устранить все эти помехи из ваших измерений (запустить их на микросхеме с встроенной памятью и без ОС), то у вас все еще есть детализация таймеров, о которых нужно беспокоиться, но теоретически, если вы запустите его достаточно долго, вы сможете что-то увидеть.
Что плохая практика? Увеличивать или уменьшать счетчик? Как вы храните индексную нотацию тогда?
Он имеет в виду, если вы делаете сравнение двух типов переменных. Конечно, это просто, если вы устанавливаете значение для цикла или чего-то еще. Но если у вас есть x <= y, а y неизвестно, было бы медленнее «оптимизировать» его до x <y + 1
@JustinDanielson согласился. Не говоря уже о некрасивых, запутанных и т. Д.
Я несколько не согласен. В конкурентном программировании языки сценариев часто предлагают самое быстрое решение проблемы, но для получения правильного решения необходимо применять правильные методы (читай: оптимизация).
Хороший надуманный пример. А как насчет вашего другого комментария о возможном влиянии на исполнение ордеров из-за использования EFLAGS? Это чисто теоретически или действительно может случиться так, что JB приведет к лучшему конвейеру, чем JBE?
@rustyx: я комментировал это где-то под другим ответом? Компиляторы не собираются выдавать код, который вызывает частичные остановки флагов, и уж точно не для C < или <= . Но конечно, test ecx,ecx / bt eax, 3 / jbe будет перескакивать, если ZF установлен (ecx == 0) или если установлен CF (бит 3 EAX == 1), вызывая частичное срыв флага на большинстве процессоров потому что флаги, которые он читает, не все взяты из последней инструкции, чтобы написать какие-либо флаги. На семействе Сэндибридж он не останавливается, просто нужно вставить объединяющий элемент. cmp / test записывает все флаги, но bt оставляет ZF без изменений. felixcloutier.com/x86/bt

Jonathon Reinhart · Accepted Answer · 2012-08-27T02-46-00.000Z

Нет, это не будет быстрее для большинства архитектур. Вы не указали, но на x86 все интегральные сравнения будут обычно выполняться в двух машинных инструкциях:

A test или cmp, которая устанавливает EFLAGS
И Jcc (переход), в зависимости от типа сравнения (и макета кода):
- jne - Jump if not equal → ZF = 0
- jz - Перейти, если ноль (равный) → ZF = 1
- jg - Перейти, если больше → ZF = 0 and SF = OF
- (и т.д...)

Пример (Отредактировано для краткости) Скомпилировано с помощью $ gcc -m32 -S -masm=intel test.c

    if (a < b) {
        // Do something 1
    }

Скомпилируется:

    mov     eax, DWORD PTR [esp+24]      ; a
    cmp     eax, DWORD PTR [esp+28]      ; b
    jge     .L2                          ; jump if a is >= b
    ; Do something 1
.L2:

и

    if (a <= b) {
        // Do something 2
    }

Скомпилируется:

    mov     eax, DWORD PTR [esp+24]      ; a
    cmp     eax, DWORD PTR [esp+28]      ; b
    jg      .L5                          ; jump if a is > b
    ; Do something 2
.L5:

Таким образом, единственное различие между ними - это инструкция jg против a jge. Эти два будут занимать одинаковое количество времени.

Я хотел бы обратиться к комментарию, что ничто не указывает на то, что разные инструкции перехода занимают одинаковое количество времени. Это немного сложно ответить, но вот что я могу дать: В Справочник по наборам инструкций Intel все они сгруппированы по одной общей инструкции, Jcc (Перейти, если условие выполнено). Та же группировка составлена в Справочном руководстве по оптимизации, в Приложении C. Задержка и пропускная способность.

Задержка. - Количество тактовых циклов, которые необходимы для ядро выполнения для завершения выполнения всех μops, которые формируют инструкция.

Пропускная способность. - Количество тактовых циклов, необходимых для подождать, пока порты проблемы не смогут принять одну и ту же инструкцию еще раз. Для многих инструкций пропускная способность инструкции может быть значительно меньше его задержки

Значения для Jcc:

      Latency   Throughput
Jcc     N/A        0.5

со следующей сноской на Jcc:

7). Выбор инструкций условного перехода должен основываться на рекомендации раздела 3.4.1 "Оптимизация прогноза ветвей" для улучшения предсказуемости веток. Когда ветки предсказаны успешно, латентность Jcc равна нулю.

Итак, ничто в документах Intel никогда не рассматривает одну инструкцию Jcc по-другому, чем другие.

Если вы думаете о фактической схеме, используемой для реализации инструкций, можно предположить, что для разных битов в EFLAGS были бы установлены простые логики AND/OR на разных битах, чтобы определить, выполнены ли условия. Тогда нет причин, по которым команда, тестирующая два бита, должна занимать больше или меньше времени, чем одно тестирование только одного (Игнорирование задержки распространения затвора, которое намного меньше периода синхронизации).

Изменить: плавающая точка

Это справедливо и для x87-плавающей запятой: (Довольно много того же кода, что и выше, но с double вместо int.)

        fld     QWORD PTR [esp+32]
        fld     QWORD PTR [esp+40]
        fucomip st, st(1)              ; Compare ST(0) and ST(1), and set CF, PF, ZF in EFLAGS
        fstp    st(0)
        seta    al                     ; Set al if above (CF=0 and ZF=0).
        test    al, al
        je      .L2
        ; Do something 1
.L2:

        fld     QWORD PTR [esp+32]
        fld     QWORD PTR [esp+40]
        fucomip st, st(1)              ; (same thing as above)
        fstp    st(0)
        setae   al                     ; Set al if above or equal (CF=0).
        test    al, al
        je      .L5
        ; Do something 2
.L5:
        leave
        ret

@Dyppl фактически jg и jnle одни и те же инструкции, 7F :-)
@JonathonReinhart Вы уверены, что ваш пример не наоборот? Т.е. не < скомпилировано в jg и <= в jge ?
@maksimov, вероятно, это правильно, код asm для (a < b) ... говорит: jump if a >= b что эквивалентно do something if a < b .
Не говоря уже о том, что оптимизатор может изменить код, если действительно один параметр работает быстрее, чем другой.
просто потому, что что-то приводит к одинаковому количеству инструкций, не обязательно означает, что общее время выполнения всех этих инструкций будет одинаковым. На самом деле больше инструкций может быть выполнено быстрее. Количество инструкций за цикл не является фиксированным числом, оно варьируется в зависимости от инструкций.
@jontejj Я очень хорошо это знаю. Ты вообще читал мой ответ? Я ничего не утверждал об одном и том же количестве инструкций, я заявил, что они скомпилированы по существу с одинаковыми инструкциями , за исключением того, что одна инструкция перехода просматривает один флаг, а другая команда перехода ищет два флага. Я считаю, что я дал более чем достаточные доказательства, чтобы показать, что они семантически идентичны.
Да, видел это сейчас. Я все еще думаю, что ваше первое предложение заставляет кого-то сделать такой вывод по неправильным причинам. «Вы не указали, но на x86 все интегральные сравнения будут, как правило, реализованы в двух машинных инструкциях», на самом деле это не главное, что вы должны делать, но это первое, что вы делаете. Нужно было бы прочитать вашу отредактированную часть дальше, чтобы понять почему. В противном случае ваш ответ первоклассный!
«Если задуматься о фактической схеме, используемой для реализации инструкций, можно предположить, что будут простые логические элементы И / ИЛИ для разных битов в EFLAGS, чтобы определить, выполняются ли условия. Тогда нет никаких причин, чтобы инструкция тестирование двух битов должно занять больше или меньше времени, чем тестирование только одного (игнорирование задержки распространения строба, которая намного меньше, чем тактовый период.) «Я думаю, что это должно быть вашей главной точкой.
@jontejj Вы делаете очень хорошую мысль. Для того, чтобы этот ответ был наглядным, я, вероятно, должен немного его очистить. Спасибо за ответ.
Я бы только добавить , что cmp устанавливает в FLAGS регистр «в том же порядке, что и к sub инструкции». На самом деле, «сравнение выполняется путем вычитания второго операнда из первого операнда» - так что происходит перенос / заимствование. то есть, это не простая побитовая операция с точки зрения аппаратного «параллелизма».
@ Бретт действительно, но инструкция Jcc проверяет биты, которые уже установлены. Ваши очки верны, но я не понимаю, как это действительно относится к рассматриваемому вопросу.
«Это относится и к x87 с плавающей запятой». Это какая-то новая архитектура, о которой я никогда не слышал? ;)
@JonathonReinhart: В x86 некоторые инструкции устанавливают некоторые флаги, но оставляют другие без изменений (например, inc/dec ). Текущие процессоры, работающие вне очереди, переименовывают биты флага отдельно, поэтому inc не имеет входной зависимости от предыдущего значения флагов. jcc который зависит от нескольких флагов, установленных более чем одной инструкцией, требует дополнительного uop для объединения флагов (или в более ранних разработках Intel вызывает частичное jcc флагов.) Так что каждый jcc внутренне одинаков, но их различные зависимости могут быть проблема. Вещи были хуже до улучшения переименования флагов.
@JonathonReinhart: также см. Agner.org/optimize для получения более подробной информации, чем из собственных руководств Intel.
Забыл упомянуть об этом в последний раз, но не все СКК одинаковы. Некоторые могут слиться макросом с непосредственно предшествующей инструкцией CMP или TEST на Core2 и Nehalem. (И в семействе Intel Sandybridge, с множеством различных инструкций ALU .) Процессоры AMD, которые могут вообще слиться с макрокомандой (семейство Bulldozer), могут сделать это для любой JCC, даже таких странных, как JP, в которых Intel никогда не сливается с макросом ,
@PeterCordes Так как я писал этот ответ, я взял класс компьютерной архитектуры уровня выпускника и получил гораздо больше понимания тонкостей конвейерного и переименование регистров, и т.д. Я до сих пор вполне убежден , что мой ответ ( в основном только "Нет . ") правильно, но я не совсем уверен, что добавить к моему ответу, чтобы сделать его правильным с точки зрения современного суперскалярного процессора с неупорядоченным порядком. Возможно, простой ответ таков: «Независимо от базового механизма, аппаратное обеспечение способно одновременно просматривать несколько флагов состояния». Какие-нибудь мысли?
Да, это не настоящее тестирование нескольких битов в EFLAGS, которое когда-либо было проблемой на x86. Это переименование частичных флагов, так как не все инструкции пишут каждый флаг, но процессоры пытаются избежать ложных зависимостей, переименовывая различные части EFLAGS отдельно. (Это не проблема для <против <=). На Intel pre-Haswell чтение флага, которое было оставлено без изменений предыдущей инструкцией по написанию флага, происходит медленно. (Гораздо медленнее на предварительном Sandybridge, как вы можете видеть в этом вопросе: stackoverflow.com/questions/32084204/… )
Так или иначе, мои комментарии только пытались исправить чрезмерное обобщение, что все JCC равны. Это не так, потому что некоторые могут слиться с макросом, а некоторые нет, даже если они используются после такой инструкции, как CMP, которая записывает все флаги (избегая любых перестановок или замедлений переименования частичных флагов).