Самый быстрый способ определить, находится ли целое число между двумя целыми числами (включительно) с известными наборами значений

Question

Самый быстрый способ определить, находится ли целое число между двумя целыми числами (включительно) с известными наборами значений

350

Есть ли более быстрый способ, чем x >= start && x <= end в C или С++, проверить, существует ли целое число из двух целых чисел?

UPDATE: Моя конкретная платформа - iOS. Это часть функции размытия ящика, которая ограничивает пиксели по кругу в заданном квадрате.

UPDATE: после ответа принятого ответа я получил ускорение порядка одной строки кода, выполнив обычный способ x >= start && x <= end.

UPDATE: вот код после и после с ассемблером из XCode:

NEW WAY

// diff = (end - start) + 1
#define POINT_IN_RANGE_AND_INCREMENT(p, range) ((p++ - range.start) < range.diff)

Ltmp1313:
 ldr    r0, [sp, #176] @ 4-byte Reload
 ldr    r1, [sp, #164] @ 4-byte Reload
 ldr    r0, [r0]
 ldr    r1, [r1]
 sub.w  r0, r9, r0
 cmp    r0, r1
 blo    LBB44_30

OLD WAY

#define POINT_IN_RANGE_AND_INCREMENT(p, range) (p <= range.end && p++ >= range.start)

Ltmp1301:
 ldr    r1, [sp, #172] @ 4-byte Reload
 ldr    r1, [r1]
 cmp    r0, r1
 bls    LBB44_32
 mov    r6, r0
 b      LBB44_33
LBB44_32:
 ldr    r1, [sp, #188] @ 4-byte Reload
 adds   r6, r0, #1
Ltmp1302:
 ldr    r1, [r1]
 cmp    r0, r1
 bhs    LBB44_36

Довольно удивительно, как уменьшение или устранение ветвления может обеспечить такую резкую скорость.

jjxtra 13 июнь 2013, в 18:27

Источник

26

Почему вы обеспокоены тем, что это не достаточно быстро для вас?
Matt Ball 13 июнь 2013, в 19:22
10

Является ли этот конкретный тест узким местом в вашем приложении?
cdhowie 13 июнь 2013, в 19:23
13

Не беспокойся об этом. Оптимизатор очень хорош.
SLaks 13 июнь 2013, в 19:23
87

Кого волнует почему, это интересный вопрос. Это просто вызов ради вызова.
David Grinberg 13 июнь 2013, в 19:23
14

@ Dgrin91: Не совсем. Это зависит от того, какой именно компилятор, оптимизатор, платформа, тип данных и кто знает, что еще.
SLaks 13 июнь 2013, в 19:24
45

@SLaks Так что мы должны просто игнорировать все такие вопросы вслепую и просто сказать: «Пусть оптимизатор сделает это?»
David Grinberg 13 июнь 2013, в 19:27
86

Неважно, почему задают вопрос. Это правильный вопрос, даже если ответ нет
tay10r 13 июнь 2013, в 19:28
7

Я бы предположил, что этот вопрос не имеет смысла в c . Если вы спросили «в сборке на очень конкретной платформе», то может быть разумный ответ. Итак, как спросили, это не правильный вопрос, даже академический.
BoBTFish 13 июнь 2013, в 19:31
40

Это узкое место в функции в одном из моих приложений
jjxtra 13 июнь 2013, в 19:32
0

начало, конец и значение находятся между 0 и n, где n обычно меньше 128
jjxtra 13 июнь 2013, в 19:33
7

@ Dgrin91: Нет; мы должны попросить таких опрашивающих предоставить более подробную информацию.
SLaks 13 июнь 2013, в 19:46
4

Вы пробовали не ленивый и x >= start & x <= end (чтобы избежать дополнительной ветви)
ratchet freak 14 июнь 2013, в 01:48
16

@SLaks о том, что мы должны попросить таких опрашивающих предоставить более подробную информацию : это не то, что вы сделали. Ваш комментарий был не беспокойтесь об этом. Оптимизатор очень хорош.
jogojapan 14 июнь 2013, в 02:35
0

«Это часть функции размытия окна» Разве у iphone нет шейдеров?
SigTerm 14 июнь 2013, в 02:44
1

@SigTerm да, у него есть шейдеры, но мое приложение использует для всех контексты quartz2d и cgbitmap.
jjxtra 14 июнь 2013, в 14:08
3

Я думаю, что была ошибка в вашем исходном коде. Он не будет увеличивать p, если первое сравнение было ложным. Новый код всегда увеличивает p. Это может объяснить большую часть вашего ускорения.
jxh 14 июнь 2013, в 16:24
3

Вы катались на тонком льду со своим старым способом, так как увеличение не гарантировалось в последовательности, которую вы могли бы принять. В этом отношении я не понимаю, почему это вообще происходит, так как вы, похоже, увеличиваете значение, а не указатель.
Mark Ransom 14 июнь 2013, в 16:25
0

@jxh Это намеренно. Я не хотел, чтобы p увеличивал исходный код, чтобы сохранить несколько циклов. Как только оно пройдет правый край или нижний край круга, условие вернет false, не делая второго сравнения. Визуально размытие выглядит одинаково с обоими методами.
jjxtra 14 июнь 2013, в 16:26
4

Я бы не рекомендовал использовать p++ а не просто p внутри макроса. Это может сделать ваш код немного короче, так как вам не нужно увеличивать p после использования макроса, но, включив его в макрос, вы, возможно, нарушаете предположение, которое, вероятно, делает большинство программистов (что проверка границ не изменит значения, участвующие в проверке). И если разницы в несколько циклов в среднем на одно использование макроса достаточно, чтобы добиться большой разницы в производительности, то вам может потребоваться уменьшить количество использований макроса. микроопты иногда игнорируют реальные проблемы перфорации
JAB 14 июнь 2013, в 16:28
0

@JAB Хорошо, я переименую макрос, чтобы указать, что происходит приращение
jjxtra 14 июнь 2013, в 16:29
0

Я забираю это назад, я не понимал, что && определил точку последовательности. См. Stackoverflow.com/questions/4176328/… . И я предполагаю, что вы вызываете макрос со ссылкой указателя, т.е. *p ? Это сработало бы тогда, но это не самый простой код для подражания.
Mark Ransom 14 июнь 2013, в 16:30
0

@MarkRansom Правильно. Да, это не самый простой код для подражания, но это ссылка на указатель.
jjxtra 14 июнь 2013, в 16:33
0

@PsychoDad Ой, подождите, если это ссылка на указатель и основанная на использовании (должен был заметить это с помощью точечной записи рядом с инкрементом), является ли p итератором? Я думаю, я вижу, как это может повлиять на производительность, если перегруженный ++ в итераторе не будет встроен / оптимизирован.
JAB 14 июнь 2013, в 16:36
0

@JAB Это не итератор, это просто указатель на структуру.
jjxtra 14 июнь 2013, в 16:37
1

К вашему сведению, вы должны превратить эти #define в встроенные функции (это никак не повлияет на производительность) . Смотрите здесь по причине почему.
BlueRaja - Danny Pflughoeft 14 июнь 2013, в 16:42
0

@ BlueRaja-DannyPflughoeft Спасибо за ссылку, я сделаю это.
jjxtra 14 июнь 2013, в 16:44
0

@PsychoDad Это правда, что у меня нет такого большого опыта работы с C ++, но, насколько я могу судить, указатель на структуру (или на экземпляр класса) все еще нуждается -> для доступа к его членам, как в C. Я не верю, что это было бы необходимо, если бы это была ссылка на структуру, но это не позволило бы приращению без перегрузки для оператора ++ .
JAB 14 июнь 2013, в 16:48
0

Как насчет оптимизации загрузки данных? Вы пытались использовать меньшие типы данных, сохранить их в смещении от другого регистра? Когда у вас есть 2 значения в одном типе данных 32b, вы все равно можете загрузить его с помощью ldr а затем использовать смещения, которые вы будете сравнивать.
bartimar 14 июнь 2013, в 17:40
22

Вы действительно должны были опубликовать свой реальный код намного раньше. ++ имеет большое значение ...
Oliver Charlesworth 14 июнь 2013, в 18:00
0

Любопытно, что эта функция использовалась в инструменте размытия в приложении, которое я написал, You Doodle для iOS - bit.ly/YouDoodleApp
jjxtra 12 янв. 2015, в 02:48

Показать ещё 28 комментариев

Теги:

c++

performance

c

math

5 ответов

17

Это зависит от того, сколько раз вы хотите выполнить тест по тем же данным.

Если вы выполняете тест за один раз, вероятно, нет значимого способа ускорить алгоритм.

Если вы делаете это для очень конечного набора значений, вы можете создать таблицу поиска. Выполнение индексации может быть более дорогостоящим, но если вы можете поместить всю таблицу в кеш, вы можете удалить все ветвления из кода, что должно ускорить процесс.

Для ваших данных таблица поиска будет 128 ^ 3 = 2,097,152. Если вы можете управлять одной из трех переменных, поэтому учитывайте все экземпляры, где start = N за один раз, размер рабочего набора падает до 128^2 = 16432 байтов, что должно хорошо вписываться в большинство современных кешей.

Вам все равно нужно будет сравнить фактический код, чтобы увидеть, является ли таблица нерассмотренного поиска достаточно быстрой, чем очевидные сравнения.

Andrew Prock 13 июнь 2013, в 21:30

0

Таким образом, вы бы сохранили какой-то поиск по заданному значению, start и end, и он содержал бы BOOL, сообщающий вам, находится ли он между ними?
jjxtra 13 июнь 2013, в 19:33
0

Правильный. Это будет таблица поиска в 3D: bool between[start][end][x] . Если вы знаете, как будет выглядеть ваш шаблон доступа (например, x монотонно увеличивается), вы можете спроектировать таблицу, чтобы сохранить локальность, даже если вся таблица не помещается в памяти.
Andrew Prock 13 июнь 2013, в 19:36
0

Я посмотрю, смогу ли я обойти этот метод и посмотреть, как он пойдет. Я планирую сделать это с битовым вектором на строку, где бит будет установлен, если точка находится в круге. Думаете, это будет быстрее, чем байт или int32 против битовой маскировки?
jjxtra 19 июнь 2013, в 18:50

Показать ещё 1 комментарий

17

Редко можно сделать значительную оптимизацию для кода в таком маленьком масштабе. Большой прирост производительности достигается благодаря наблюдению и изменению кода с более высокого уровня. Возможно, вам удастся полностью исключить необходимость теста диапазона или использовать только O (n) вместо O (n ^ 2). Вы можете повторно заказать тесты, чтобы одна сторона неравенства всегда подразумевалась. Даже если алгоритм идеален, выигрыши с большей вероятностью появятся, когда вы увидите, как этот код проверяет диапазон 10 миллионов раз, и вы найдете способ их пакетного запуска и использовать SSE для параллельного выполнения многочисленных тестов.

Ben Jackson 13 июнь 2013, в 19:42

15

Несмотря на отрицательные отзывы, я поддерживаю свой ответ: сгенерированная сборка (см. Ссылку на вставку в комментарии к принятому ответу) довольно ужасна для чего-то во внутреннем цикле функции обработки пикселей. Принятый ответ - изящный трюк, но его драматический эффект намного превосходит то, что разумно ожидать для устранения доли ветвления за итерацию. Некоторый вторичный эффект является доминирующим, и я все еще ожидаю, что попытка оптимизировать весь процесс по сравнению с этим одним тестом оставит преимущества умного сравнения диапазонов в пыли.
Ben Jackson 14 июнь 2013, в 07:58

1

Этот ответ должен сообщить о тестировании, выполненном с принятым ответом. Я выполнил закрытый тест диапазона на большом векторе отсортированного случайного целого числа, и, к моему удивлению, основной метод (low <= num & num <= high) на самом деле быстрее, чем принятый ответ выше! Тест проводился на HP Pavilion g6 (AMD A6-3400APU с емкостью 6 ГБ. Здесь основной код, используемый для тестирования:

int num = rand();  // num to compare in consecutive ranges.
chrono::time_point<chrono::system_clock> start, end;
auto start = chrono::system_clock::now();

int inBetween1{ 0 };
for (int i = 1; i < MaxNum; ++i)
{
    if (randVec[i - 1] <= num && num <= randVec[i])
        ++inBetween1;
}
auto end = chrono::system_clock::now();
chrono::duration<double> elapsed_s1 = end - start;

по сравнению со следующим, который является принятым ответом выше:

int inBetween2{ 0 };
for (int i = 1; i < MaxNum; ++i)
{
    if (static_cast<unsigned>(num - randVec[i - 1]) <= (randVec[i] - randVec[i - 1]))
        ++inBetween2;
}

Обратите внимание, что randVec - отсортированный вектор. Для любого размера MaxNum первый метод превосходит второй на моей машине!

rezeli 03 фев. 2017, в 09:18

0

Мои данные не отсортированы, и мои тесты на iPhone руку процессора. Ваши результаты с разными данными и процессором могут отличаться.
jjxtra 03 фев. 2017, в 14:24
0

отсортировано в моем тесте только для того, чтобы убедиться, что верхний предел не меньше нижнего.
rezeli 14 фев. 2017, в 23:53
0

Сортированные числа означают, что предсказание ветвления будет очень надежным и обеспечит правильность всех ветвей, за исключением нескольких в точках переключения. Преимущество кода без ответвлений состоит в том, что он избавит от подобных ошибок в непредсказуемых данных.
Andreas Klebinger 07 фев. 2019, в 00:07

Показать ещё 1 комментарий

-1

Невозможно просто выполнить побитовое действие над целым?

Так как он должен быть между 0 и 128, если установлен 8-й бит (2 ^ 7), то он равен 128 или больше. Случай с краем будет больно, однако, поскольку вы хотите инклюзивное сравнение.

icedwater 14 июнь 2013, в 04:04

2

Он хочет знать, если x <= end , где end <= 128 . Не x <= 128 .
Ben Voigt 14 июнь 2013, в 13:15
1

Это утверждение « Поскольку оно должно быть между 0 и 128, если 8-й бит установлен (2 ^ 7), то это 128 или более », неверно. Рассмотрим 256.
Happy Green Kid Naps 14 июнь 2013, в 14:13
1

Да, очевидно, я не думал об этом достаточно. Сожалею.
icedwater 15 июнь 2013, в 15:11

Показать ещё 1 комментарий

Ещё вопросы

Почему вы обеспокоены тем, что это не достаточно быстро для вас?
Является ли этот конкретный тест узким местом в вашем приложении?
Не беспокойся об этом. Оптимизатор очень хорош.
Кого волнует почему, это интересный вопрос. Это просто вызов ради вызова.
@ Dgrin91: Не совсем. Это зависит от того, какой именно компилятор, оптимизатор, платформа, тип данных и кто знает, что еще.
@SLaks Так что мы должны просто игнорировать все такие вопросы вслепую и просто сказать: «Пусть оптимизатор сделает это?»
Неважно, почему задают вопрос. Это правильный вопрос, даже если ответ нет
Я бы предположил, что этот вопрос не имеет смысла в c . Если вы спросили «в сборке на очень конкретной платформе», то может быть разумный ответ. Итак, как спросили, это не правильный вопрос, даже академический.
Это узкое место в функции в одном из моих приложений
начало, конец и значение находятся между 0 и n, где n обычно меньше 128
@ Dgrin91: Нет; мы должны попросить таких опрашивающих предоставить более подробную информацию.
Вы пробовали не ленивый и x >= start & x <= end (чтобы избежать дополнительной ветви)
@SLaks о том, что мы должны попросить таких опрашивающих предоставить более подробную информацию : это не то, что вы сделали. Ваш комментарий был не беспокойтесь об этом. Оптимизатор очень хорош.
«Это часть функции размытия окна» Разве у iphone нет шейдеров?
@SigTerm да, у него есть шейдеры, но мое приложение использует для всех контексты quartz2d и cgbitmap.
Я думаю, что была ошибка в вашем исходном коде. Он не будет увеличивать p, если первое сравнение было ложным. Новый код всегда увеличивает p. Это может объяснить большую часть вашего ускорения.
Вы катались на тонком льду со своим старым способом, так как увеличение не гарантировалось в последовательности, которую вы могли бы принять. В этом отношении я не понимаю, почему это вообще происходит, так как вы, похоже, увеличиваете значение, а не указатель.
@jxh Это намеренно. Я не хотел, чтобы p увеличивал исходный код, чтобы сохранить несколько циклов. Как только оно пройдет правый край или нижний край круга, условие вернет false, не делая второго сравнения. Визуально размытие выглядит одинаково с обоими методами.
Я бы не рекомендовал использовать p++ а не просто p внутри макроса. Это может сделать ваш код немного короче, так как вам не нужно увеличивать p после использования макроса, но, включив его в макрос, вы, возможно, нарушаете предположение, которое, вероятно, делает большинство программистов (что проверка границ не изменит значения, участвующие в проверке). И если разницы в несколько циклов в среднем на одно использование макроса достаточно, чтобы добиться большой разницы в производительности, то вам может потребоваться уменьшить количество использований макроса. микроопты иногда игнорируют реальные проблемы перфорации
@JAB Хорошо, я переименую макрос, чтобы указать, что происходит приращение
Я забираю это назад, я не понимал, что && определил точку последовательности. См. Stackoverflow.com/questions/4176328/… . И я предполагаю, что вы вызываете макрос со ссылкой указателя, т.е. *p ? Это сработало бы тогда, но это не самый простой код для подражания.
@MarkRansom Правильно. Да, это не самый простой код для подражания, но это ссылка на указатель.
@PsychoDad Ой, подождите, если это ссылка на указатель и основанная на использовании (должен был заметить это с помощью точечной записи рядом с инкрементом), является ли p итератором? Я думаю, я вижу, как это может повлиять на производительность, если перегруженный ++ в итераторе не будет встроен / оптимизирован.
@JAB Это не итератор, это просто указатель на структуру.
К вашему сведению, вы должны превратить эти #define в встроенные функции (это никак не повлияет на производительность) . Смотрите здесь по причине почему.
@ BlueRaja-DannyPflughoeft Спасибо за ссылку, я сделаю это.
@PsychoDad Это правда, что у меня нет такого большого опыта работы с C ++, но, насколько я могу судить, указатель на структуру (или на экземпляр класса) все еще нуждается -> для доступа к его членам, как в C. Я не верю, что это было бы необходимо, если бы это была ссылка на структуру, но это не позволило бы приращению без перегрузки для оператора ++ .
Как насчет оптимизации загрузки данных? Вы пытались использовать меньшие типы данных, сохранить их в смещении от другого регистра? Когда у вас есть 2 значения в одном типе данных 32b, вы все равно можете загрузить его с помощью ldr а затем использовать смещения, которые вы будете сравнивать.
Вы действительно должны были опубликовать свой реальный код намного раньше. ++ имеет большое значение ...
Любопытно, что эта функция использовалась в инструменте размытия в приложении, которое я написал, You Doodle для iOS - bit.ly/YouDoodleApp
Таким образом, вы бы сохранили какой-то поиск по заданному значению, start и end, и он содержал бы BOOL, сообщающий вам, находится ли он между ними?
Правильный. Это будет таблица поиска в 3D: bool between[start][end][x] . Если вы знаете, как будет выглядеть ваш шаблон доступа (например, x монотонно увеличивается), вы можете спроектировать таблицу, чтобы сохранить локальность, даже если вся таблица не помещается в памяти.
Я посмотрю, смогу ли я обойти этот метод и посмотреть, как он пойдет. Я планирую сделать это с битовым вектором на строку, где бит будет установлен, если точка находится в круге. Думаете, это будет быстрее, чем байт или int32 против битовой маскировки?
Несмотря на отрицательные отзывы, я поддерживаю свой ответ: сгенерированная сборка (см. Ссылку на вставку в комментарии к принятому ответу) довольно ужасна для чего-то во внутреннем цикле функции обработки пикселей. Принятый ответ - изящный трюк, но его драматический эффект намного превосходит то, что разумно ожидать для устранения доли ветвления за итерацию. Некоторый вторичный эффект является доминирующим, и я все еще ожидаю, что попытка оптимизировать весь процесс по сравнению с этим одним тестом оставит преимущества умного сравнения диапазонов в пыли.
Мои данные не отсортированы, и мои тесты на iPhone руку процессора. Ваши результаты с разными данными и процессором могут отличаться.
отсортировано в моем тесте только для того, чтобы убедиться, что верхний предел не меньше нижнего.
Сортированные числа означают, что предсказание ветвления будет очень надежным и обеспечит правильность всех ветвей, за исключением нескольких в точках переключения. Преимущество кода без ответвлений состоит в том, что он избавит от подобных ошибок в непредсказуемых данных.
Он хочет знать, если x <= end , где end <= 128 . Не x <= 128 .
Это утверждение « Поскольку оно должно быть между 0 и 128, если 8-й бит установлен (2 ^ 7), то это 128 или более », неверно. Рассмотрим 256.
Да, очевидно, я не думал об этом достаточно. Сожалею.

Jerry Coffin · Accepted Answer · 2013-06-13T21-15-00.000Z

502

Лучший ответ

Есть старый трюк, чтобы сделать это только с одним сравнением/ветвью. Будет ли это действительно улучшать скорость, может быть открытым вопрос, и даже если это произойдет, это, вероятно, слишком мало, чтобы заметить или позаботиться, но когда вы только начинаете с двух сравнений, шансы на значительное улучшение довольно удалены. Код выглядит так:

// use a < for an inclusive lower bound and exclusive upper bound
// use <= for an inclusive lower bound and inclusive upper bound
// alternatively, if the upper bound is inclusive and you can pre-calculate
//  upper-lower, simply add + 1 to upper-lower and use the < operator.
    if ((unsigned)(number-lower) <= (upper-lower))
        in_range(number);

С типичным современным компьютером (т.е. чем-либо, использующим два дополнения) преобразование в unsigned действительно является nop - просто изменение в том, как просматриваются одни и те же биты.

Обратите внимание, что в типичном случае вы можете предварительно вычислить upper-lower вне цикла (предполагаемого), так что обычно не вносят сколько-нибудь значительного времени. Наряду с уменьшением количества команд ветвления, это также (как правило) улучшает предсказание ветвей. В этом случае выполняется одна и та же ветвь, находится ли это число ниже нижнего конца или над верхним концом диапазона.

Что касается этого, основная идея довольно проста: отрицательное число, если смотреть как беззнаковое число, будет больше, чем все, что начиналось как положительное число.

На практике этот метод переводит number и интервал в точку начала и проверяет, находится ли number в интервале [0, D], где D = upper - lower. Если number ниже нижней границы: отрицательный, а если выше верхней границы: больше, чем D.

Jerry Coffin 13 июнь 2013, в 21:15

0

Довольно аккуратно. Но это зависит от того, переполнен ли upper-lower ...
Oliver Charlesworth 13 июнь 2013, в 19:37
2

@OliCharlesworth: Да, но он сказал, что оба больше 0, поэтому он не может переполниться (то есть, верхний нижний <верхний).
Jerry Coffin 13 июнь 2013, в 19:38
1

Хорошо, но мне сейчас любопытно. Думая в машинных циклах, вычитатель не дороже, чем сравнение?
Amadeus 13 июнь 2013, в 19:38
2

@JerryCoffin: Ах, я этого не заметил!
Oliver Charlesworth 13 июнь 2013, в 19:38
8

@ TomásBadan: Они оба будут одним циклом на любой разумной машине. Что дорого это ветка.
Oliver Charlesworth 13 июнь 2013, в 19:39
0

верхний-нижний также может быть предварительно рассчитан в моем случае, так как моя структура данных содержит начальное и конечное значения, хорошо!
jjxtra 13 июнь 2013, в 19:41
1

@ AK4749: Вот почему вопросы, которые создают подобные самородки, также должны быть вознаграждены.
jxh 13 июнь 2013, в 19:43
3

Дополнительное разветвление сделано из-за короткого замыкания? Если это так, то чем lower <= x & x <= upper (вместо lower <= x && x <= upper ), тем лучше производительность?
Markus Mayr 13 июнь 2013, в 19:45
6

@ AK4749, jxh: Каким бы крутым ни был этот самородок, я не решаюсь поднять голос, потому что, к сожалению, нечего предполагать, что на практике это происходит быстрее (пока кто-то не сравнит итоговую информацию на ассемблере и профилировании). Насколько нам известно, компилятор OP может визуализировать код OP с помощью кода операции одной ветви ...
Oliver Charlesworth 13 июнь 2013, в 19:50
1

@MarkusMayr, оптимизатор может заменить вас, используя правило « как если», поскольку сравнение целых чисел не имеет побочных эффектов.
Mark Ransom 13 июнь 2013, в 19:54
147

ВОТ ЭТО ДА!!! Это привело к улучшению порядка моего приложения для этой конкретной строки кода. Благодаря предварительному вычислению «верхний-нижний» мое профилирование увеличилось с 25% времени этой функции до менее 2%! Узкое место теперь - операции сложения и вычитания, но я думаю, что это может быть достаточно хорошо сейчас :)
jjxtra 13 июнь 2013, в 19:54
2

@OliCharlesworth, даже если тестирование показывает, что на большинстве процессоров и компиляторов оно ничем не отличается или даже хуже, если есть один, где лучше, то это достойный ответ.
Mark Ransom 13 июнь 2013, в 19:55
0

@MarkRansom Я ожидаю, что любой компилятор оптимизирует код таким образом. Но если это так, то я не вижу никакой причины, почему код в ответе должен быть значительно быстрее, чем код, предоставленный ОП.
Markus Mayr 13 июнь 2013, в 19:55
2

@PsychoDad: Чтобы удовлетворить любопытных среди нас, не могли бы вы опубликовать ассемблер, сгенерированный вашим компилятором в каждом случае?
Oliver Charlesworth 13 июнь 2013, в 19:57
0

@PsychoDad обычно компиляторы поддерживают опцию -S для создания файла сборки. На самом деле я бы также заинтересовался сборкой оригинального (медленного) кода.
Bryan Olivier 13 июнь 2013, в 20:08
0

Нашел его в Xcode, так как файл в нем содержит более 1000 строк, теперь сложная часть будет искать точную часть :)
jjxtra 13 июнь 2013, в 20:08
3

Я думаю, что это оптимизированный код, но я могу ошибаться, кто-то скажет мне, если это выглядит не так: Ltmp1313: ldr r0, [sp, # 176] @ 4-байтовая перезагрузка ldr r1, [sp, # 164] @ 4- Перезагрузка байта ldr r0, [r0] ldr r1, [r1] sub.w r0, r9, r0 cmp r0, r1 blo LBB44_30
jjxtra 13 июнь 2013, в 20:15
1

@PsychoDad Похоже, за исключением того, что number и upper-lower похоже, происходят из struct (или глобальной).
Bryan Olivier 13 июнь 2013, в 20:33
0

Да, они приходят из структуры со свойствами начала, конца и различий
jjxtra 13 июнь 2013, в 20:43
2

Я думаю, что это более медленная версия: Ltmp1301: ldr r1, [sp, # 172] @ 4-байтовая перезагрузка ldr r1, [r1] cmp r0, r1 bls LBB44_32 mov r6, r0 b LBB44_33 LBB44_32: ldr r1, [sp, # 188] @ 4-байтовая перезагрузка добавляет r6, r0, # 1 Ltmp1302: ldr r1, [r1] cmp r0, r1 bhs LBB44_36
jjxtra 13 июнь 2013, в 20:52
0

Для любопытных задействованным алгоритмом является размытие окна, которое ограничивает размытые пиксели кругом. Включающая проверка проверяет, является ли текущий пиксель точкой в круге.
jjxtra 13 июнь 2013, в 20:55
0

@ OliCharlesworth абсолютно. Я понимаю, что оптимизатор может в конечном итоге производить сравнимый код, поэтому я понимаю вашу точку зрения до некоторой степени. Я также вижу, однако, что Джерри имеет некоторую теоретическую поддержку своего ответа, что делает его (ИМО) хорошим ответом. Я могу видеть, как это не очевидный "хороший ответ SO" все же. Я так противоречив
im so confused 13 июнь 2013, в 21:11
3

Пастбин ассемблера в, надеюсь, более читабельном формате.
jxh 13 июнь 2013, в 22:15
1

@PsychoDad: Похоже, что-то, что должно быть сделано в GPU ...
BlueRaja - Danny Pflughoeft 13 июнь 2013, в 22:56
2

@MarkusMayr Проверка с помощью gcc explorer, использование && и использование & создают точно такой же код, который является методом короткого замыкания ( && ).
SirGuy 13 июнь 2013, в 23:47
0

@ BlueRaja-DannyPflughoeft все приложение сделано с базовой графикой, поэтому на этом этапе переписывание OpenGL будет несколько болезненным. Производительность на самом деле приличная даже на моем iPhone 4S с разрешением 2048x2048.
jjxtra 14 июнь 2013, в 00:04
1

@PsychoDad Вы действительно должны поместить эти детали в свой вопрос (или отредактировать их в принятый ответ в зависимости от ситуации). Комментарии - плохое место для хорошей информации как это. Информация теряется, и рано или поздно другим людям просто трудно ей следовать.
George Stocker♦ 14 июнь 2013, в 02:19
28

Ах, теперь @PsychoDad обновил вопрос, понятно, почему это быстрее. Реальный код имеет побочный эффект при сравнении, поэтому компилятор не может оптимизировать короткое замыкание.
Oliver Charlesworth 14 июнь 2013, в 17:57
0

Интересно, возможно ли применить этот трюк в Java, потому что в Java нет целых чисел без знака.
damluar 11 нояб. 2013, в 13:36
0

У вас случайно есть ссылка на «старый трюк», который я мог бы процитировать?
Patrick Sanan 14 нояб. 2013, в 07:58
0

@TheNobleSunfish: Извините, но нет, не совсем.
Jerry Coffin 14 нояб. 2013, в 14:38
1

@PatrickSanan: я немного опоздал, я знаю, но я думаю, что этот конкретный трюк подробно описан в "Восхищении Хакера" Генри Уоррена (наряду с множеством других классных хаков низкого уровня).
Paul R 18 нояб. 2016, в 14:30

Показать ещё 30 комментариев