Можно / эффективно ли ввести в работу исключение fpu или inf?

Question

Можно / эффективно ли ввести в работу исключение fpu или inf?

0

У меня такой код

петля 10 M:

 if( fz != 0.0)     
 { 
  fhx += hx/fz; 
 }

это называется 10 М раз в цикле, нужно быть очень быстрым - я просто должен поймать случай, когда fz не равен нулю, а не делать div с нулевой ошибкой, но это очень редкий случай, действительно, в 10-мегабитных случаях это должно быть ноль, я не знаю один, два или более

могу ли я каким-то образом избавиться от этого 10M ifs и использовать "nan/inf" или, может быть, поймать исключение и продолжить? (если fz равно нулю, мне нужно fhx + = 0.0, я не имею в виду ничего, что только можно продолжить? Возможно ли/эффективно помещать исключение fpu или inf в работу?

(Im, использующий c++/mingw32)

user2214913 06 дек. 2014, в 13:52

Источник

1

Вы действительно работаете с кодом FPU? С SSE вы можете легко сравнивать и маскировать (вместо ответвления).
harold 06 дек. 2014, в 11:56
0

Насколько предсказуема ветка и как часто она может привести к пропуску деления? Использование исключения очень медленно, если только оно не происходит приблизительно никогда.
harold 06 дек. 2014, в 12:33
0

я не обязательно использую fpu, это скомпилировано с mingw, может мы используем sse2
user2214913 06 дек. 2014, в 12:34
0

fz в действительности - это dir.z, это координата z нормализованного направления в 3d, как в трассировке лучей, так что это, вероятно, (если я не ошибаюсь) для пикселей в экваторе - но пиксель (если я не ошибаюсь) очень редко просто стремится к 0,00000 - обычно он пропускает ноль, но иногда он может быть нулем
user2214913 06 дек. 2014, в 12:39
0

пс. если вы хотите больше говорить, можете также зайти на comp.lang.c (например, через группы Google), больше места для разговора
user2214913 06 дек. 2014, в 12:41
0

Что если fz очень маленький - 1e-30, 1e-100? Разве это не взорвет ваш расчет? Разрыв при fz=0 кажется очень странным.
Alan Stokes 06 дек. 2014, в 12:50
0

это часть расчета что-то вроде «расстояния» до точки, когда вы смотрите на землю. тогда расстояние пропорционально x / z, например, на 1 метр вниз, z = 1 1 метр, прямые провода делают расстояние 1, (x и z - координаты нормализованного вектора, поэтому они не являются длиной бота 1, но не так важны), когда у вас есть x меньше, чем z в 100 раз, тогда расстояние x / z = 100. При взгляде на горизонт z направления a становится равным нулю, а длина становится бесконечностью - это, вероятно, не увеличивает значение расстояния, я просто получил его очень большой
user2214913 06 дек. 2014, в 12:58
0

вход - вектор dir (xy - плоскость, z + 1 - точка зенита, z-1 - антизенит (хотя я временно изменил его, поэтому z - антизенит, вектор направлен вниз) - результат этого цикла - расстояние
user2214913 06 дек. 2014, в 13:02
0

итак ... для каждого пикселя я получил расстояние, только в очень неудачных случаях я получил ровно плоскость направления z для одного пикселя (так как я использую поплавки) и, таким образом, бесконечное расстояние, но это может произойти; / и мне нужно проверить каждый ( я знаю, что могу сделать несколько плиток, чтобы выбросить несколько плиток, но мне интересно, что можно сделать в чистом общем случае
user2214913 06 дек. 2014, в 13:15

Показать ещё 7 комментариев

Теги:

c++

optimization

x86

sse

fpu

1 ответ

Ещё вопросы

Вы действительно работаете с кодом FPU? С SSE вы можете легко сравнивать и маскировать (вместо ответвления).
Насколько предсказуема ветка и как часто она может привести к пропуску деления? Использование исключения очень медленно, если только оно не происходит приблизительно никогда.
я не обязательно использую fpu, это скомпилировано с mingw, может мы используем sse2
fz в действительности - это dir.z, это координата z нормализованного направления в 3d, как в трассировке лучей, так что это, вероятно, (если я не ошибаюсь) для пикселей в экваторе - но пиксель (если я не ошибаюсь) очень редко просто стремится к 0,00000 - обычно он пропускает ноль, но иногда он может быть нулем
пс. если вы хотите больше говорить, можете также зайти на comp.lang.c (например, через группы Google), больше места для разговора
Что если fz очень маленький - 1e-30, 1e-100? Разве это не взорвет ваш расчет? Разрыв при fz=0 кажется очень странным.
это часть расчета что-то вроде «расстояния» до точки, когда вы смотрите на землю. тогда расстояние пропорционально x / z, например, на 1 метр вниз, z = 1 1 метр, прямые провода делают расстояние 1, (x и z - координаты нормализованного вектора, поэтому они не являются длиной бота 1, но не так важны), когда у вас есть x меньше, чем z в 100 раз, тогда расстояние x / z = 100. При взгляде на горизонт z направления a становится равным нулю, а длина становится бесконечностью - это, вероятно, не увеличивает значение расстояния, я просто получил его очень большой
вход - вектор dir (xy - плоскость, z + 1 - точка зенита, z-1 - антизенит (хотя я временно изменил его, поэтому z - антизенит, вектор направлен вниз) - результат этого цикла - расстояние
итак ... для каждого пикселя я получил расстояние, только в очень неудачных случаях я получил ровно плоскость направления z для одного пикселя (так как я использую поплавки) и, таким образом, бесконечное расстояние, но это может произойти; / и мне нужно проверить каждый ( я знаю, что могу сделать несколько плиток, чтобы выбросить несколько плиток, но мне интересно, что можно сделать в чистом общем случае

harold · Accepted Answer · 2014-12-06T10-57-00.000Z

Вы можете, но это, вероятно, не так уж полезно. Маскировка не будет полезна ни при каких обстоятельствах.

Исключения очень медленные, когда они случаются, сначала много микрокодированных сложных вещей должно произойти до того, как процессор даже войдет в обработчик исключений на уровне ядра, а затем он должен передать его процессу сложным и медленным способом. С другой стороны, они ничего не стоят, когда их не бывает.

Но сравнение и ветвь на самом деле ничего не стоят и до тех пор, пока ветвь предсказуема, а отрасль, которая по существу никогда не берется, - это. Конечно, это требует небольшой пропускной способности, чтобы заставить их вообще произойти, но они не находятся в критическом пути. Но даже если бы они были, настоящая проблема здесь была делением на каждой итерации.

Пропускная способность этого деления составляет 1 на 14 циклов в любом случае (на Хасуэлл - хуже на других μarchs), если только fz является особенно "приятным", и даже тогда он 1 на 8 циклов (опять же на Хасуэле). На Core2 это было больше похоже на 19 и 5, на P4 оно больше напоминало (в типичном режиме P4) одно деление на 71 цикл независимо от того, что.

Хорошо предсказанная ветвь и сравнение просто исчезают в этом. На моем 4770K разница между тем, что сравнение и ветвь там или не исчезла в шуме (возможно, если я буду запускать ее достаточно времени, я в конечном итоге получу статистически значимое различие, но она будет крошечной), причем оба они случайно выигрывают наполовину. Код, который я использовал для этого теста, был

global bench
proc_frame bench
    push r11
[endprolog]
    xor ecx, ecx
    mov rax, rcx
    mov ecx, -10000000
    vxorps xmm1, xmm1
    vxorps xmm2, xmm2
    vmovapd xmm3, [rel doubleone]
_bench_loop:
    imul eax, ecx, -0xAAAAAAAB  ; distribute zeroes somewhat randomly
    shr eax, 1                  ; increase to make more zeroes
    vxorps xmm0, xmm0
    vcvtsi2sd xmm0, eax
    vcomisd xmm0, xmm1          ; #
    jz _skip                    ; #
    vdivsd xmm0, xmm3, xmm0
    vaddsd xmm2, xmm0
_skip:
    add ecx, 1
    jnz _bench_loop
    vmovapd xmm0, xmm2
    pop r11
    ret
endproc_frame

Другая функция была такой же, но с двумя строками, отмеченными # комментарием.

Версия, которая в конечном счете последовательно выигрывает, когда число нулей увеличивается, является тем, у которого есть ветка, что указывает на то, что деление на ноль значительно медленнее, чем неверное предсказание ветки. Это, даже не используя механизм исключения для создания видимого для программиста видимого исключения, это просто из-за стоимости запущенной микрозаписей "странного случая". Но у вас нет такого количества нулей,

TL; DR нет никакой разницы.

Интересно, у меня также есть 3 машины, и это p4 core2 и haswell; o очень интересный ответ - вот пример экрана dropbox.com/s/f5bg08d1mxzht40/… Мне нужно, если для каждого пикселя хотя бы случаи, когда z == 0.0000000, вероятно, очень редко, с другой стороны, я беру x / z mul его по некоторому значению cat в int и это с & 1023 и использую его как индекс поиска текстуры - около экватора я, вероятно, получил значения больше MAX_INT, поэтому приведение его к int уже дает неправильные значения, но это случайно
не имеет большого значения, возможно, если я не поймаю исключение, но приведу ste inf к int, тогда использовать его будет без разницы - передача на inf будет медленнее, чем if-cecking?
Вы отключили исключение при делении на ноль или это отключено по умолчанию? (не думаю, что это по умолчанию) Или в вашем случае появляется исключение, но обработчик программиста не был определен?
@ user2214913 по умолчанию нет видимых программисту исключений, вы просто получаете +/- бесконечность (в зависимости от знаков операндов)
я использую mingw32, и я получил сбой на div на ноль, насколько я помню
@ user2214913 это должно происходить только когда вы делите целые числа
Интересно ... если это так, я просто могу пропустить, если и проверить ... так что вы можете сказать, как я не совсем понял - вы думаете, что было бы лучше выбросить, если позволить 1/0. превратить в inf (затем привести его к int и использовать случайное значение, которое не вредит) или лучше использовать if? (это, если вызывается много раз, действительно ли путь использования inf настолько медленный, чтобы перегружать тяжелые тысячи if-s ?
PS Я взял неожиданное замечание, только что прокомментировавший int, и он на 10% быстрее (скажем, 6 мс вместо 7 мс для низких разрешений и 23 мс для 26 мс для высоких разрешений), это хорошая информация, код также короче
@ user2214913 Я не совсем уверен, что ты имеешь в виду. Кстати, если вы хотите, чтобы я взглянул на то, как можно сделать код быстрее, вы можете задать новый вопрос с более полным кодом.
Я имею в виду, я прокомментировал, если (извините за много опечаток) и приложение показало, что на 15% быстрее
все в порядке, например, этот stackoverflow.com/questions/27333471/…