Когда-то, когда> был быстрее, чем <… Подожди, что?

Question

Когда-то, когда> был быстрее, чем <… Подожди, что?

245

Я читаю удивительный учебник OpenGL. Это действительно здорово, поверьте мне. Тема, в которой я сейчас живу, - Z-буфер. Помимо объяснения того, что все это значит, автор упоминает, что мы можем выполнять собственные тесты глубины, такие как GL_LESS, GL_ALWAYS и т.д. Он также объясняет, что фактическое значение значений глубины (которое является верхним, а какое нет) также может быть настроены. До сих пор я понимаю. И тогда автор говорит что-то невероятное:

Диапазон zNear может быть больше, чем диапазон zFar; если это так, то значения оконного пространства будут отменены, с точки зрения того, что составляет ближайший или дальний от зрителя.

Ранее было сказано, что значение Z окна-окна 0 является самым близким и 1 является самым дальним. Однако, если наши значения Z-пространства клипа были сведены на нет, глубина 1 будет ближе всего к виду, а глубина 0 будет равна дальняя. Тем не менее, если мы перевернем направление теста глубины (GL_LESS - GL_GREATER и т.д.), Мы получаем тот же результат. Так что это действительно просто условность. Действительно, щелчок знака Z и тест глубины были однажды жизненно важная оптимизация производительности для многих игр.

Если я правильно понимаю, по эффективности, перевернув знак Z и тест глубины, это не что иное, как сравнение сравнения < с сравнением >. Итак, если я правильно понял и автор не лгал или делал что-то вроде этого, то для меня было бы оптимизировать.

Является ли автор вопросом, я что-то недопонимаю, или это действительно так, что когда-то < был медленнее (жизненно, как говорит автор), чем >?

Спасибо за разъяснение этого довольно любопытного вопроса!

_{Отказ от ответственности: я полностью осознаю, что сложность алгоритма является основным источником оптимизации. Кроме того, я подозреваю, что в настоящее время это определенно не будет иметь никакого значения, и я не прошу об этом ничего оптимизировать. Я просто чрезвычайно, мучительно, может быть, непозволительно любопытно.}

Armen Tsirunyan 07 сен. 2011, в 19:41

Источник

81

Мне просто чрезвычайно, больно, может быть, слишком любопытно. - Ну и дела, вы говорите, как будто это было плохо :)
Tom Zych 07 сен. 2011, в 21:08
6

Ссылка на этот урок, кажется, (недавно) исчезла. :(
TZHX 24 март 2015, в 12:27
0

@TZHX: Поскольку принятый ответ создан автором учебного пособия, мы надеемся найти его снова. Смотрите мой последний комментарий к его ответу :)
Armen Tsirunyan 24 март 2015, в 12:58
3

Ссылка на учебник OpenGL доступна здесь .
Fons 30 май 2016, в 15:15
0

(a <b) идентичен (b> a), поэтому абсолютно не нужно реализовывать обе операции сравнения в аппаратном обеспечении. Разница в производительности является результатом того, что происходит в результате операции сравнения. Это долгий и извилистый путь, чтобы объяснить все побочные эффекты, но вот несколько советов. Игры использовали для заполнения буфера глубины, чтобы избежать более дорогой обработки фрагментов, которые не прошли проверку глубины. Quake раньше разделял диапазон глубины на две половины, чтобы избежать очистки буфера кадра, потому что игра всегда заполняла каждый пиксель на экране и так далее.
t0rakka 27 дек. 2017, в 14:24
1

@Fons выглядит как ссылка мертвая, опять же :(
nalzok 18 июнь 2018, в 08:31
0

Вот архивированная версия ссылочной версии OpenGL . Я не могу найти цитируемый фрагмент, хотя, возможно, он был удален.
Fons 08 июль 2018, в 13:03

Показать ещё 5 комментариев

Теги:

optimization

c

opengl

gpu

cpu

3 ответа

2

Ответ почти наверняка заключается в том, что для любого воплощения драйвера chip + Иерархический Z работал только в одном направлении - это была довольно распространенная проблема в тот же день. Низкоуровневая сборка/разветвление не имеет к этому никакого отношения - Z-буферизация выполняется в аппаратных средствах с фиксированной функциональностью и конвейерна - нет спекуляций и, следовательно, нет прогноза ветвления.

Crowley9 08 сен. 2011, в 02:42

-7

Он связан с битами флага в высоко настраиваемой сборке.

x86 имеет команды jl и jg, но большинство процессоров RISC имеют только jl и jz (нет jg).

Joshua 07 сен. 2011, в 19:18

0

Это существенно повышает производительность?
Armen Tsirunyan 07 сен. 2011, в 19:09
0

@ Армен: это зависит от того, как часто используется звонок, не так ли?
Max Lybbert 07 сен. 2011, в 19:12
2

Если это ответ, это поднимает новые вопросы. Было ли "ветвление получено" медленнее, чем "ветвь проигнорировано" на ранних процессорах RISC? Насколько я знаю, сейчас это определенно не так. Вы должны были писать циклы for с безусловной ветвью в обратном направлении и условной, редко используемой ветвью вперед для выхода из цикла? Звучит неловко.
Pascal Cuoq 07 сен. 2011, в 19:43
0

Я думал, что в современных архитектурах предсказание ветвления зависит от направления ветвления [поэтому условные ответвления в обратном направлении быстрее, если они приняты, вперед быстрее, если не приняты].
Random832 07 сен. 2011, в 19:49
0

@Random: у графических процессоров есть предикторы ветвления?
Oliver Charlesworth 07 сен. 2011, в 19:54
0

@Oli Charlesworth Не тот, кого я знаю, и, по крайней мере, с архитектурой Nvidias tesla, они используют предикаты гораздо чаще, чем ветви. Что касается предсказаний ветвления на ранних этапах RISC, то это, очевидно, в высшей степени зависит от реализации, но в ранних архитектурах MIPS всегда предполагалось, что ветвление не было принято - возможно, причина в том, что это упрощает проектирование конвейерного ЦП (вы обрабатываете ветвь как любую другую инструкцию и продолжаете заполнять труба, если ветка взята промыть)
Voo 07 сен. 2011, в 20:20
0

@ Random832 В современных процессорах предикторы ветвления гораздо сложнее. Intel использовала это решение (всегда предполагая, что обратная ветвь взята) в дни Pentium, потому что оно все еще было простым и, очевидно, подходило для циклов. Сегодня у нас есть локальные / глобальные предикторы, которые распознают шаблоны и тому подобное - лучше всего предположить, что процессор знает, что он делает (выдерживает мобильные решения; не знаю, что делает ARM, но, безусловно, что-то более простое, потребляет меньше энергии)
Voo 07 сен. 2011, в 20:24
52

-1: Этот вопрос не имеет ничего общего с процессорами . GL_LESS и GL_GREATER - это операции сравнения глубины, которые выполняются на графических процессорах.
Nicol Bolas 07 сен. 2011, в 20:29
1

@Nicol: В те дни они тоже работали на GPU?
Armen Tsirunyan 07 сен. 2011, в 20:35
1

GPU - это класс процессоров RISC-VLIW-vector. Применяется тот же общий принцип.
Joshua 07 сен. 2011, в 21:00
0

@ Джошуа Ум, нет. «А» GPU может быть в основном чем угодно. ATI долгое время использовала архитектуру VLIW (и они сейчас меняются), вот и все. Например, для архитектуры Tesla сама идея не имеет смысла.
Voo 07 сен. 2011, в 21:03
8

Забавно, сколько повторений вы можете получить за ответ, который соответствует названию, но имеет мало общего с реальным вопросом.
Joshua 08 сен. 2011, в 01:12
7

+1 Нет, этот ответ правильный хотя бы к части вопроса. Вопрос в следующем: «Придумывает ли автор что-то, я что-то неправильно понимаю, или это действительно так, что когда-то <было медленнее (жизненно, как говорит автор), чем>?». Есть три варианта. Этот ответ отвечает на возможность варианта 3. Нигде в статье не говорится ни о технологии CPU / GPU, ни о том, что это должен быть GPU (первые 3D-игры, в которых используется CPU). Хорошо ... Я не думаю, что было много 3D-игр на RISC :-)
xanatos 14 сен. 2011, в 09:57
3

(и тег GPU был добавлен в 20:34. Первая ревизия содержала только тег CPU. Этот ответ был написан в 18:44)
xanatos 14 сен. 2011, в 10:12
0

> можно реализовать с помощью <путем замены входов. Компилятор более чем способен сделать эту маленькую ловкую руку Де Моргана, когда он знает целевую архитектуру. Скорее всего, GPU внутренне делает именно это; выбор входов на основе состояния сравнения, но это не очень интересный момент. Интересный бит производительности - это то, что происходит после операции сравнения; фрагмент убит или все еще жив.
t0rakka 27 дек. 2017, в 14:37
0

@SnappleLVR: Вы переоцениваете силу оптимизаторов примерно в 1990 году. Этот вопрос относится к ретрокомпьютингу, которого не было, когда его задавали.
Joshua 27 дек. 2017, в 16:35
0

Я так не думаю. Когда я отвечал, у меня складывалось мнение, что в посте упоминается, что у некоторых процессоров RISC было меньше, чем в сравнении; это преобразование, очевидно, является лучшим выбором, чем когда в ISA есть только меньше, чем использовать. Я не думал об оптимизации здесь вообще. Тот же принцип применим к дизайну графических процессоров, особенно к графическим ядрам для мобильных устройств, потому что недвижимость стоит дорого; Меньшая микросхема обычно требует меньше энергии, и если вы можете заменить операцию полного сравнения простым выбором входа, вам, вероятно, следует это сделать. Оптимизация площади / мощности.
t0rakka 28 дек. 2017, в 08:15

Показать ещё 15 комментариев

Ещё вопросы

Мне просто чрезвычайно, больно, может быть, слишком любопытно. - Ну и дела, вы говорите, как будто это было плохо :)
Ссылка на этот урок, кажется, (недавно) исчезла. :(
@TZHX: Поскольку принятый ответ создан автором учебного пособия, мы надеемся найти его снова. Смотрите мой последний комментарий к его ответу :)
Ссылка на учебник OpenGL доступна здесь .
(a <b) идентичен (b> a), поэтому абсолютно не нужно реализовывать обе операции сравнения в аппаратном обеспечении. Разница в производительности является результатом того, что происходит в результате операции сравнения. Это долгий и извилистый путь, чтобы объяснить все побочные эффекты, но вот несколько советов. Игры использовали для заполнения буфера глубины, чтобы избежать более дорогой обработки фрагментов, которые не прошли проверку глубины. Quake раньше разделял диапазон глубины на две половины, чтобы избежать очистки буфера кадра, потому что игра всегда заполняла каждый пиксель на экране и так далее.
@Fons выглядит как ссылка мертвая, опять же :(
Вот архивированная версия ссылочной версии OpenGL . Я не могу найти цитируемый фрагмент, хотя, возможно, он был удален.
Это существенно повышает производительность?
@ Армен: это зависит от того, как часто используется звонок, не так ли?
Если это ответ, это поднимает новые вопросы. Было ли "ветвление получено" медленнее, чем "ветвь проигнорировано" на ранних процессорах RISC? Насколько я знаю, сейчас это определенно не так. Вы должны были писать циклы for с безусловной ветвью в обратном направлении и условной, редко используемой ветвью вперед для выхода из цикла? Звучит неловко.
Я думал, что в современных архитектурах предсказание ветвления зависит от направления ветвления [поэтому условные ответвления в обратном направлении быстрее, если они приняты, вперед быстрее, если не приняты].
@Random: у графических процессоров есть предикторы ветвления?
@Oli Charlesworth Не тот, кого я знаю, и, по крайней мере, с архитектурой Nvidias tesla, они используют предикаты гораздо чаще, чем ветви. Что касается предсказаний ветвления на ранних этапах RISC, то это, очевидно, в высшей степени зависит от реализации, но в ранних архитектурах MIPS всегда предполагалось, что ветвление не было принято - возможно, причина в том, что это упрощает проектирование конвейерного ЦП (вы обрабатываете ветвь как любую другую инструкцию и продолжаете заполнять труба, если ветка взята промыть)
@ Random832 В современных процессорах предикторы ветвления гораздо сложнее. Intel использовала это решение (всегда предполагая, что обратная ветвь взята) в дни Pentium, потому что оно все еще было простым и, очевидно, подходило для циклов. Сегодня у нас есть локальные / глобальные предикторы, которые распознают шаблоны и тому подобное - лучше всего предположить, что процессор знает, что он делает (выдерживает мобильные решения; не знаю, что делает ARM, но, безусловно, что-то более простое, потребляет меньше энергии)
-1: Этот вопрос не имеет ничего общего с процессорами . GL_LESS и GL_GREATER - это операции сравнения глубины, которые выполняются на графических процессорах.
@Nicol: В те дни они тоже работали на GPU?
GPU - это класс процессоров RISC-VLIW-vector. Применяется тот же общий принцип.
@ Джошуа Ум, нет. «А» GPU может быть в основном чем угодно. ATI долгое время использовала архитектуру VLIW (и они сейчас меняются), вот и все. Например, для архитектуры Tesla сама идея не имеет смысла.
Забавно, сколько повторений вы можете получить за ответ, который соответствует названию, но имеет мало общего с реальным вопросом.
+1 Нет, этот ответ правильный хотя бы к части вопроса. Вопрос в следующем: «Придумывает ли автор что-то, я что-то неправильно понимаю, или это действительно так, что когда-то <было медленнее (жизненно, как говорит автор), чем>?». Есть три варианта. Этот ответ отвечает на возможность варианта 3. Нигде в статье не говорится ни о технологии CPU / GPU, ни о том, что это должен быть GPU (первые 3D-игры, в которых используется CPU). Хорошо ... Я не думаю, что было много 3D-игр на RISC :-)
(и тег GPU был добавлен в 20:34. Первая ревизия содержала только тег CPU. Этот ответ был написан в 18:44)
> можно реализовать с помощью <путем замены входов. Компилятор более чем способен сделать эту маленькую ловкую руку Де Моргана, когда он знает целевую архитектуру. Скорее всего, GPU внутренне делает именно это; выбор входов на основе состояния сравнения, но это не очень интересный момент. Интересный бит производительности - это то, что происходит после операции сравнения; фрагмент убит или все еще жив.
@SnappleLVR: Вы переоцениваете силу оптимизаторов примерно в 1990 году. Этот вопрос относится к ретрокомпьютингу, которого не было, когда его задавали.
Я так не думаю. Когда я отвечал, у меня складывалось мнение, что в посте упоминается, что у некоторых процессоров RISC было меньше, чем в сравнении; это преобразование, очевидно, является лучшим выбором, чем когда в ISA есть только меньше, чем использовать. Я не думал об оптимизации здесь вообще. Тот же принцип применим к дизайну графических процессоров, особенно к графическим ядрам для мобильных устройств, потому что недвижимость стоит дорого; Меньшая микросхема обычно требует меньше энергии, и если вы можете заменить операцию полного сравнения простым выбором входа, вам, вероятно, следует это сделать. Оптимизация площади / мощности.

Nicol Bolas · Accepted Answer · 2011-09-07T21-21-00.000Z

Если я правильно понимаю, по эффективности, переворачивание знака Z и теста глубины - это не что иное, как изменение < сравнение с a > сравнение. Итак, если я правильно понимаю и автор не лжет или что-то делает, то изменение < чтобы > быть жизненно важной для многих игр.

Я не очень хорошо объяснил это, потому что это было неважно. Я просто почувствовал, что это интересная мелочь. Я не собирался специально переходить к алгоритму.

Однако контекст является ключевым. Я никогда не говорил, что < сравнение было быстрее, чем сравнение. Помните: мы говорим об испытаниях глубины графического оборудования, а не о вашем процессоре. Не operator<.

То, что я имел в виду, это конкретная старая оптимизация, в которой один кадр использовал бы GL_LESS с диапазоном [0, 0.5]. Следующий кадр, который вы выполняете с помощью GL_GREATER с диапазоном [1.0, 0.5]. Вы идете туда и обратно, буквально "переворачивая знак Z и проверку глубины" в каждом кадре.

Это теряет один бит точности, но вам не нужно было очищать буфер глубины, который когда-то был довольно медленным. Поскольку очистка глубины не только свободна в эти дни, но и быстрее, чем эта техника, люди больше этого не делают.

Ага! Так что это я должен поблагодарить вас за замечательные уроки? :) Ну, пожалуйста, примите мои самые искренние поздравления с лучшей онлайн-книгой opengl! И большое спасибо за разъяснение этого, теперь я понимаю. Собираетесь ли вы продолжать больше уроков по турориалу? :)
@ArmenTsirunyan: Кстати, если вам интересно, урок 15 сейчас. Я также уточнил этот отрывок, вытащив его на боковую панель.
Если есть место, чтобы поблагодарить Никола, я думаю, что это будет здесь, так что Николь, я также благодарю вас. Хотя в последнее время большая часть моего обучения была сосредоточена на OpenGL ES, я обнаружил, что именно ВАША книга действительно выгравировала самые фундаментальные концепции в моей памяти. Графика программирования потрясающая. Поначалу безумно сложно, но потрясающе. Я нашел свою карьеру и жизненную страсть благодаря GP.
Причина, по которой очистка буфера глубины происходит быстрее, в наши дни имеет две причины, обе из которых основаны на том факте, что графический процессор использует иерархический буфер глубины. Для этого нужно только очистить, установить состояния мозаики для очистки (что является быстрым), изменив знак сравнения глубины, однако, это означает, что весь буфер HiZ необходимо очистить, поскольку он хранит только минимальное или максимальное значение в зависимости от знака сравнения.
@NicolBolas: комментарий PerTZHX, ссылка на ваш учебник в моем вопросе исчезла. Не могли бы вы сообщить нам всем, куда движутся учебники, и при необходимости отредактировать вопрос?
Уроки доступны в веб-архиве. Если @NicolBolas позволяет, было бы полезно для сообщества, если бы мы могли переместить их в более доступное место. Может быть, GitHub или что-то. web.archive.org/web/20150215073105/http://arcsynthesis.org/...