Плюсы и минусы занятого ожидания на современных процессорах

Question

Плюсы и минусы занятого ожидания на современных процессорах

0

Я использую ожидание для синхронизации доступа к критическим регионам, например:

while (p1_flag != T_ID);

/* begin: critical section */
for (int i=0; i<N; i++) {
 ... 
}
/* end: critical section */

p1_flag++;

p1_flag - глобальная изменчивая переменная, которая обновляется другим параллельным потоком. На самом деле, у меня есть два критических раздела внутри цикла, и у меня есть два потока (оба выполняются в одном цикле), которые коммутируют выполнение этих критических областей. Например, критические области называются A и B.

Thread 1     Thread 2
   A        
   B            A
   A            B
   B            A
   A            B
   B            A
                B

Параллельный код выполняется быстрее, чем серийный, но не так сильно, как я ожидал. Профилирование параллельной программы с помощью VTune Amplifier я заметил, что в директивах синхронизации тратится большое количество времени, то есть while(...) и обновление флага. Я не уверен, почему я вижу такие большие накладные расходы в этих "инструкциях", так как область A точно такая же, как в регионе B. Моя лучшая догадка заключается в том, что это связано с латентностью когерентности кеша: я использую Intel i7 Ivy Bridge Machine и эта микроархитектура решает когерентность кеша на L3. VTune также сообщает, что команда while (...) потребляет всю пропускную способность интерфейса, но почему?

Чтобы сделать вопрос понятным: почему while(...) и инструкции флага обновления занимают так много времени выполнения? Почему команда while(...) насыщает пропускную способность интерфейса?

JohnTortugo 26 окт. 2013, в 05:23

Источник

0

Я предполагаю, что два потока борются друг с другом за владение одной и той же строкой кэша. Я не эксперт по аппаратной синхронизации, хотя.
Collin Dauphinee 26 окт. 2013, в 02:57
0

Не существует ложного разделения между переменными. Однако обратите внимание, что для переменной синхронизации существует параллелизм в тот момент, когда оба потока должны коммутировать области.
JohnTortugo 26 окт. 2013, в 03:04

Теги:

c++

multithreading

parallel-processing

x86

computer-architecture

2 ответа

Ещё вопросы

Я предполагаю, что два потока борются друг с другом за владение одной и той же строкой кэша. Я не эксперт по аппаратной синхронизации, хотя.
Не существует ложного разделения между переменными. Однако обратите внимание, что для переменной синхронизации существует параллелизм в тот момент, когда оба потока должны коммутировать области.

Leeor · Answer 1 · 2013-10-26T00-42-00.000Z

Накладные расходы, которые вы платите, вполне могут быть связаны с передачей переменной синхронизации между ядрами.

Согласованность кеша диктует, что при изменении строки кэша (p1_flag++) вам необходимо иметь право собственности на нее. Это означает, что это приведет к аннулированию любой копии, существующей в других ядрах, ожидая, что она вернет любые изменения, сделанные этим другим ядром, на уровень общего кэша. Затем он предоставит строку запрашивающему ядру в состоянии M и выполнит модификацию.

Тем не менее, другое ядро к тому времени будет постоянно читать эту строку, прочитав, что будет следить за первым ядром и спросить, есть ли у него копия этой строки. Поскольку первое ядро имеет копию M этой строки, оно будет записано обратно в общий кэш, и ядро потеряет право собственности.

Теперь это зависит от фактической реализации в HW, но если строка была зачерпнута до того, как было сделано изменение, первое ядро должно было попытаться снова получить право собственности на нее. В некоторых случаях я предполагаю, что это может привести к нескольким итерациям попыток.

Если вы настроены на ожидание занятости, вы должны хотя бы использовать паузу внутри нее: _mm_pause intrisic или просто __asm("pause"). Это послужило бы для того, чтобы дать другому потоку шанс получить блокировку и освободить вас от ожидания, а также снизить нагрузку на процессор в оживленном ожидании (процессор вне порядка будет заполнять все конвейеры параллельными экземплярами этого оживленного ожидания, потребляя много энергии - пауза будет сериализовать его, чтобы только одна итерация могла запускаться в любой момент времени - гораздо меньше потребления и с тем же эффектом).

Привет Лиор. Я полностью согласен с вашими наблюдениями! Я не думал, что строка кеша может пинг-понг между ядрами до того, как она будет обновлена. Насколько вы уверены, что это может произойти? Я подумал об использовании трюка с pause , однако в будущем я хотел бы перенести эту программу на архитектуру ARM - знаете ли вы, есть ли аналогичная инструкция для ARM? Другое дело: основываясь на экспериментах, я предполагаю, что конвейер полон инструкций загрузки, но почему процессор не ждет завершения одной загрузки, прежде чем выдать другую?
Кстати, для x86 вы также можете использовать cpuid или другие сериализационные модули. Я не уверен насчет ARM ISA, но там тоже должны быть инструкции по сериализации. Возможно, попробуйте ISB ( infocenter.arm.com/help/topic/com.arm.doc.dai0179b/… ). Имейте в виду, что я говорю о сериализации на уровне команд, а не об ограждении памяти (необходимо заблокировать эти ветви).
Что касается вероятности - этот сценарий возможен, не уверен, насколько вероятен - вы могли бы проверить счетчики производительности в vtune, чтобы увидеть, сколько происходит недействительных строк (по сравнению с тем, сколько выполненных итераций). Что касается того, why doesn't the processor wait for one load to complete before issuing another one - вы имеете в виду на разных ядрах? нет механизма для мелкозернистой выдачи между ядрами, для синхронизации которого потребовалось бы так много времени, что вы потеряли бы какую-либо выгоду от параллельного выполнения на многоядерном компьютере.
Нет, я имею ввиду в том же ядре. В цикле, как while(p1_flag != T_ID); Кажется, что процессор имеет несколько в загрузке (все для одного и того же адреса), как это обрабатывается x86? Дело в том, что если у меня будет несколько загрузок для одного и того же адреса (подряд), x86 будет ждать завершения первого, прежде чем выдать второй? Я думаю, нет.
@JohnTortugo Обширный пинг-понг для одного потока чтения / одного магазина кажется маловероятным для прилично спроектированного оборудования. Многократные загрузки могут произойти, потому что выход из строя может эффективно развернуть цикл while (с использованием прогнозирования ветвлений) и останавливает зависимости данных (которых нет в цикле while, поэтому множественные загрузки могут выполняться параллельно). ARM обеспечивает отправку события / ожидание события (которое не масштабируется, так как любое отправленное событие пробудит все ожидающие потоки в системе - также это только подсказки). Выход ARM позволяет перепланировать аппаратные потоки, но я не вижу паузу ARM.
@Paul: потребуются ли этим нескольким нагрузкам (для одного и того же адреса) другой адрес в LFB (буфере заполнения строки)?
Выдача нескольких нагрузок (и инструкций в целом) является частью того, что делает процессоры не по порядку настолько эффективными. Однако, если они находятся на одном и том же адресе, они, вероятно, будут забиты за пределы блока памяти и проснутся все вместе, как только данные вернутся. Другими словами - вы получите только одну нагрузку в любой момент, что помешает вашим попыткам получить право собственности, но поскольку ожидание занятости очень ограничено - у вас всегда будет такая нагрузка (или линия будет в жду кеш ядер уже)

Ben · Answer 2 · 2013-10-25T23-53-00.000Z

0

Занят-ожидание почти никогда не является хорошей идеей в многопоточных приложениях.

Когда вы заняты - ожидание, алгоритмы планирования потоков не будут знать, что ваш цикл ждет в другом потоке, поэтому они должны выделять время, как будто ваш поток выполняет полезную работу. И это занимает процессорное время, чтобы проверять эту переменную больше и больше, и снова и снова, и снова и снова... пока она не будет окончательно "разблокирована" другим потоком. Тем временем ваш другой поток будет вытеснен вашей оживленной нитью снова и снова, без всякой цели.

Это еще хуже, если планировщик основан на приоритете, а поток ожидания ожидания занят более высоким приоритетом. В этой ситуации поток с более низким приоритетом НИКОГДА не будет вытеснять поток с более высоким приоритетом, таким образом, у вас есть ситуация взаимоблокировки.

Вы должны ВСЕГДА использовать семафоры или объекты мьютекса или обмен сообщениями для синхронизации потоков. Я никогда не видел ситуации, когда занятое ожидание было правильным решением.

Когда вы используете семафор или мьютекс, планировщик никогда не должен планировать этот поток до тех пор, пока не будет выпущен семафор или мьютекс. Таким образом, ваша нить никогда не будет уходить от потоков, которые действительно работают.

Ben 25 окт. 2013, в 23:53

2

Я не думаю, что это верно для всех типов систем. Есть сценарии, в которых вы знаете, что ожидание будет очень коротким (несколько циклов), и стоимость перевода потока в состояние ожидания / ожидания запуска планировщика обычно выше, чем просто вращение в течение нескольких циклов.
Collin Dauphinee 26 окт. 2013, в 02:49
0

Бен, спасибо за ответ. Однако дауфик прав. В некоторых случаях лучше ждать несколько циклов, чем платить цену за переключение контекста. Как я сказал в своем вопросе, A и B - это один и тот же код, и я ожидаю, что их время выполнения будет почти одинаковым, и поэтому я не ожидал, что while (...) будет выполняться слишком долго.
JohnTortugo 26 окт. 2013, в 02:52
0

@JohnTortugo: Хотя я согласен с тем, что dauphic прав, я (совсем) не уверен, что рассматриваемый случай является хорошим примером использования спин-блокировки. Я использовал их, но типичными случаями были драйверы устройств, которые должны были ждать чего-то вроде одного или двух циклов шины 33 МГц PCI.
Jerry Coffin 26 окт. 2013, в 02:55
0

@ Джерри: если я изменю эту синхронизацию. Директивы для чего-то более «высокого уровня» накладные расходы еще больше. Код внутри критических областей представляет собой циклы, поэтому я могу развернуть их, чтобы амортизировать накладные расходы на синхронизацию / управление, но это не устранило проблему (несомненно, это уменьшит накладные расходы).
JohnTortugo 26 окт. 2013, в 03:02
0

@JohnTortugo: Учитывая, что вы, похоже, просто защищаете один глобальный объект, а затем увеличиваете его, я хотел полностью избежать внешних блокировок и просто сделать атомарный прирост. Поскольку вы, очевидно, используете C ++, std::atomic<int> p1_flag; и просто ++p1_flag; без какой-либо защиты вообще.
Jerry Coffin 26 окт. 2013, в 03:09
0

@ Джерри: почему это было бы более эффективным? Проблема, кажется, в синхронизации / коммуникационных накладных расходах, а не в атомарности.
JohnTortugo 26 окт. 2013, в 03:14
0

Вы сказали, что используете это для синхронизации двух потоков. Как именно вы знаете, что это будет только несколько циклов ожидания? И как вы собираетесь избежать переключения контекста для другого потока, чтобы установить переменную, которую вы ожидаете?
Ben 26 окт. 2013, в 03:42
0

Привет, Бен. Я не сказал, что знаю это, я сказал, что я ожидал этого - потому что область A равна области B. Я не могу избежать переключений контекста, но во время экспериментов по профилированию это не было проблемой.
JohnTortugo 26 окт. 2013, в 04:05
0

У меня есть некоторое сочувствие с этим ответом. Чистые спин-блокировки (то есть без резервирования блокировки ядра) приводят к неудачным эффектам, когда число готовых потоков превышает количество ядер, так что потоки, владеющие блокировками, могут быть заменены. Конечно, вероятность того, что это произойдет, невелика, когда вы блокируете достаточно долго, чтобы поместить указатель в очередь, но это вопрос C ++ - языка, где есть devs. Кажется, мне нравится копировать огромные буферы по значению как можно чаще :( Самым ярким воспоминанием об использовании спин-блокировки был разбитый кластер из восьми блоков, семь заблокированных, один живой.
Martin James 26 окт. 2013, в 14:21
0

Я думаю, что данные, собранные до сих пор в этом вопросе, подтверждают идею, что это конкретное время НЕ подходящее время для использования спин-блокировки. Мне было бы интересно увидеть обсуждение того, когда это будет хорошей идеей. Лично я никогда не видел, чтобы они вызывали что-то кроме проблем, если только они явно не вызывают Sleep () или что-то подобное внутри цикла.
Ben 26 окт. 2013, в 15:53

Показать ещё 8 комментариев