x64 генерирует fcmov / fcomi за минуту

Question

x64 генерирует fcmov / fcomi за минуту

0

У меня есть часть кода, которая находится в плотном цикле, и она выполняет минимальное количество элементов, и это должно быть сделано float с помощью float. Я попытался использовать SSE, но, поскольку он был жестким, загрузка/хранилище фактически делали версию SSE медленнее, чем обычная версия ветвления. Я пытаюсь использовать fcmov, но я не могу заставить VS2010 генерировать это. Это x64, поэтому встроенный asm нельзя использовать. Любые мысли о том, как уговорить vs2010 использовать fcmov/fcomi?

благодаря

user1181950 15 сен. 2014, в 22:16

Источник

0

Используйте внешний ассемблер
David Heffernan 15 сен. 2014, в 20:02
1

Я не думаю, что вы когда-нибудь сможете убедить 64-битный компилятор использовать FCMOV поскольку эта инструкция использует регистры x87, а не регистры SSE.
Ross Ridge 15 сен. 2014, в 20:34
0

Вы можете сравнить значения ieee754 с плавающей запятой для x86, рассматривая их как целые числа со знаком, если не задействованы NAN. Вы должны обойтись строгим псевдонимом, хотя ...
EOF 15 сен. 2014, в 21:05
0

но я думаю, что это не относится к плавающей единице x64. Так что в x64 нет способа не совершить прыжок в простой проверке мин (есть SSE, но, как я уже сказал, он появился медленнее, чем версия для прыжков).
user1181950 15 сен. 2014, в 22:07
1

Сравнивая числа с плавающей точкой как целые числа, вы можете использовать целочисленные инструкции условного перемещения (CMOVcc). В отличие от ужасного дерьма x87, они будут легко созданы компиляторами.
EOF 15 сен. 2014, в 22:22
0

У вас есть статья или предложение о том, как это можно сделать, я не думаю, что вы можете просто сравнить число с плавающей запятой как со знаком int без каких-либо специальных операций, так как представление отличается.
user1181950 15 сен. 2014, в 23:42

Показать ещё 4 комментария

Теги:

c++

floating-point

assembly

visual-studio-2010

1 ответ

Ещё вопросы

Я не думаю, что вы когда-нибудь сможете убедить 64-битный компилятор использовать FCMOV поскольку эта инструкция использует регистры x87, а не регистры SSE.
Вы можете сравнить значения ieee754 с плавающей запятой для x86, рассматривая их как целые числа со знаком, если не задействованы NAN. Вы должны обойтись строгим псевдонимом, хотя ...
но я думаю, что это не относится к плавающей единице x64. Так что в x64 нет способа не совершить прыжок в простой проверке мин (есть SSE, но, как я уже сказал, он появился медленнее, чем версия для прыжков).
Сравнивая числа с плавающей точкой как целые числа, вы можете использовать целочисленные инструкции условного перемещения (CMOVcc). В отличие от ужасного дерьма x87, они будут легко созданы компиляторами.
У вас есть статья или предложение о том, как это можно сделать, я не думаю, что вы можете просто сравнить число с плавающей запятой как со знаком int без каких-либо специальных операций, так как представление отличается.

Surt · Answer 1 · 2014-09-15T18-15-00.000Z

Это скомпилируется для условного перехода на gcc, не знаю, делает ли VS то же самое.

template<class T>
constexpr inline T min(const T& lhs, const T& rhs) {
   return (lhs<rhs)?lhs:rhs;
}

Использование свойств:
Для процессоров с SSE4_1 Nahelem или новее?
Используйте выровненные нагрузки, поэтому вам может потребоваться добавить исправление цикла в начале и/или в конце.

__m128 O1, O2, O3, mask;
...
mask = _mm_cmplt_ps(O2, O3); // O2 < O3
O1 = _mm_blendv_ps(O2, O3 ,mask); // O1 = (O2<O3)?O2:O3

да, я использую почти то же самое, используя тернарный оператор, но в VS2010 он компилируется в инструкции с jb / jl (прыжками) в них.
В GCC компилятор обнаруживает некоторые собственные преобразования в SIMD, если уровень оптимизации установлен достаточно высоко, может быть, VC тоже такой умный?
Я уже использую O2, компилятор продолжает использовать переходы :(
Добавлен метод использования встроенных функций, т.е. используя SSE напрямую, это для SSE4.1.