C ++ 11 представил стандартизированную модель памяти. Что это значит? И как это повлияет на программирование на C ++?

Question

C ++ 11 представил стандартизированную модель памяти. Что это значит? И как это повлияет на программирование на C ++?

1544

C++ 11 представила стандартизованную модель памяти, но что именно это означает? И как это повлияет на программирование C++?

Эта статья (Гэвин Кларк, цитирующая Херба Саттера) говорит, что,

Модель памяти означает, что код C++ теперь имеет стандартизованную библиотеку для вызова независимо от того, кто создал компилятор и на какой платформе он работает. Там стандартный способ контролировать, как разные потоки разговаривают с памятью процессора.

"Когда вы говорите о разделении [кода] на разные ядра, которые находятся в стандарте, мы говорим о модели памяти. Мы собираемся ее оптимизировать, не нарушая следующих предположений, которые люди собираются сделать в коде", - сказал Саттер.

Ну, я могу запомнить этот и аналогичные абзацы, доступные в Интернете (так как у меня была моя собственная модель памяти с момента рождения: P), и я могу даже написать ответ на вопросы, заданные другими, но, честно говоря, я не совсем понимаю этот.

C++ программисты использовали для разработки многопоточных приложений еще раньше, поэтому как это важно, если это потоки POSIX или потоки Windows или C++ 11 потоков? Каковы преимущества? Я хочу понять детали низкого уровня.

Я также чувствую, что модель памяти C++ 11 каким-то образом связана с поддержкой многопоточности C++ 11, так как я часто вижу эти два вместе. Если да, то как именно? Почему они должны быть связаны?

Поскольку я не знаю, как работают работы с несколькими потоками и какая модель памяти в целом, пожалуйста, помогите мне понять эти понятия. :-)

Nawaz 11 июнь 2011, в 23:48

Источник

Теги:

c++

multithreading

c++11

memory-model

language-lawyer

6 ответов

312

Я просто дам аналогию, с которой я понимаю модели согласованности памяти (или модели памяти, для краткости). Его вдохновляет семантическая бумага Лесли Лампорта "Время, часы и порядок событий в распределенной системе" . Аналогия уместна и имеет фундаментальное значение, но может быть излишним для многих людей. Однако я надеюсь, что это дает мысленный образ (графическое представление), что облегчает рассуждение о моделях согласованности памяти.

Позволяет просмотреть истории всех мест памяти в диаграмме пространства-времени, в которой горизонтальная ось представляет адресное пространство (т.е. каждая ячейка памяти представлена точкой на этой оси), а вертикальная ось представляет время (мы будем см., что в общем, нет универсального понятия времени). Таким образом, история значений, хранящихся в каждой ячейке памяти, представлена вертикальным столбцом по этому адресу памяти. Каждое изменение значения связано с тем, что один из потоков записывает новое значение в это место. Под изображением памяти мы будем понимать совокупность/комбинацию значений всех мест памяти, которые наблюдаются в определенное время, с помощью конкретного потока.

Цитата из "Основатель согласованности и согласованности кеша"

Интуитивная (и наиболее ограничительная) модель памяти представляет собой последовательную согласованность (SC), в которой многопоточное выполнение должно выглядеть как чередование последовательных исполнений каждого составного потока, как если бы потоки были мультиплексированы по времени на одноядерном процессор.

Этот глобальный порядок памяти может варьироваться от одного запуска программы к другому и может быть не известен заранее. Характерной особенностью SC является набор горизонтальных срезов в диаграмме адрес-пространство-время, представляющий плоскости одновременности (т.е. Изображения в памяти). На данной плоскости все его события (или значения памяти) являются одновременными. Существует понятие Абсолютного времени, в котором все нити согласуются с тем, какие значения памяти являются одновременными. В SC в каждый момент времени есть только один образ памяти, общий для всех потоков. То есть, в каждый момент времени все процессоры согласуются с образом памяти (т.е. Совокупным содержимым памяти). Это не только означает, что все потоки рассматривают одну и ту же последовательность значений для всех мест памяти, но также и то, что все процессоры выполняют одни и те же комбинации значений всех переменных. Это то же самое, что сказать, что все операции с памятью (по всем ячейкам памяти) наблюдаются в том же полном порядке всеми потоками.

В моделях с ослабленной памятью каждый поток будет разделять адрес-пространство-время по-своему, единственным ограничением является то, что срезы каждого потока не пересекаются друг с другом, потому что все потоки должны согласовывать историю каждой отдельной ячейки памяти (конечно, кусочки разных нитей могут и будут пересекаться друг с другом). Нет универсального способа разрезать его (без привилегированного слоения адресного пространства-времени). Ломтики не должны быть плоскими (или линейными). Они могут быть изогнутыми, и это то, что может сделать значения чтения потока, написанные другим потоком, из того, в каком они были написаны. Истории разных мест памяти могут скользить (или растягиваться) произвольно относительно друг друга при просмотре любой конкретный поток. Каждый поток будет иметь другое представление о том, какие события (или, что то же самое, значения памяти) являются одновременными. Набор событий (или значений памяти), которые одновременно связаны с одним потоком, не являются одновременными с другими. Таким образом, в модели с ослабленной памятью все потоки по-прежнему сохраняют одну и ту же историю (то есть последовательность значений) для каждой ячейки памяти. Но они могут наблюдать разные образы памяти (т.е. Сочетания значений всех мест памяти). Даже если два разных места памяти записаны одним и тем же потоком в последовательности, два новых записанных значения могут наблюдаться в другом порядке другими потоками.

[Иллюстрация из Википедии]

Читатели, знакомые с Einsteins Специальная теория относительностизаметят, о чем я говорю. Перевод слов Минковского в область моделей памяти: адресное пространство и время - это тени адресного пространства-времени. В этом случае каждый наблюдатель (т.е. Поток) будет проектировать тени событий (т.е. Запоминает память/нагрузки) на свою собственную линию мира (т.е. Свою временную ось) и свою собственную плоскость одновременности (его ось адресного пространства), Темы в модели памяти С++ 11 соответствуют наблюдателям, которые перемещаются относительно друг друга в специальной теории относительности. Последовательная согласованность соответствует галилеевому пространству-времени (т.е. Все наблюдатели соглашаются на один абсолютный порядок событий и глобальное чувство одновременности).

Сходство между моделями памяти и специальной теорией относительности связано с тем, что оба определяют частично упорядоченный набор событий, часто называемый причинным множеством. Некоторые события (т.е. Хранилища памяти) могут влиять (но не влиять) на другие события. Поток С++ 11 (или наблюдатель в физике) представляет собой не более чем цепочку (т.е. Полностью упорядоченную совокупность) событий (например, память загружает и сохраняет к возможным различным адресам).

В теории относительности некоторый порядок восстанавливается на кажущуюся хаотичную картину частично упорядоченных событий, так как единственным временным порядком, с которым согласны все наблюдатели, является упорядочение среди "временных событий" (т.е. те события, которые в принципе могут быть связаны любым частица идет медленнее, чем скорость света в вакууме). Только упорядоченные по времени события инвариантно упорядочены. Время в физике, Craig Callender.

В модели памяти С++ 11 аналогичный механизм (модель согласованности-освобождения-выпуска) используется для установления этих локальных причинно-следственных связей.

Чтобы обеспечить определение последовательности памяти и мотивации отказа от SC, я приведу из Primer по согласованности памяти и согласованности кеша

Для компьютера с общей памятью модель согласованности памяти определяет архитектурно видимое поведение своей системы памяти. Критерий правильности одного ядра процессора разбивает поведение между "одним правильным результатом" и "множеством неправильных альтернатив". Это связано с тем, что архитектура процессоров предусматривает, что выполнение потока преобразует заданное входное состояние в одно четко определенное состояние вывода даже на ядре вне порядка. Однако модели согласованности с общей памятью относятся к нагрузкам и хранилищам нескольких потоков и обычно позволяют много правильных исполнений, не допуская многих (более) неправильных. Возможность множественных правильных исполнений обусловлена тем, что ISA позволяет одновременному выполнению нескольких потоков, часто со многими возможными законными перехватами команд из разных потоков.

Relaxed или слабые модели согласованности памяти мотивированы тем, что большинство упорядочений памяти в сильных моделях не нужно. Если поток обновляет десять элементов данных, а затем флаг синхронизации, программистам обычно не важно, обновлены ли элементы данных по порядку относительно друг друга, а только обновлены все элементы данных до обновления флага (обычно они реализуются с использованием инструкции FENCE). Расслабленные модели стремятся уловить эту повышенную гибкость порядка и сохранить только заказы, которые программисты "требуют", чтобы получить как более высокую производительность, так и правильность SC. Например, в некоторых архитектурах буферы записи FIFO используются каждым ядром для хранения результатов фиксированных (удаленных) хранилищ перед тем, как записывать результаты в кеши. Эта оптимизация повышает производительность, но нарушает SC. Буфер записи скрывает задержку обслуживания пропусков магазина. Поскольку магазины являются общими, возможность избежать остановки большинства из них является важным преимуществом. Для одноядерного процессора буфер записи может быть сделан архитектурно невидимым, гарантируя, что загрузка адреса A возвращает значение самого последнего хранилища в A, даже если один или несколько хранилищ для A находятся в буфере записи. Обычно это делается путем обхода значения самого последнего хранилища в до нагрузки от A, где "последнее" определяется порядком программы или путем остановки нагрузки A, если хранилище A находится в буфере записи, Когда используется несколько ядер, каждый из них будет иметь свой собственный байпас записи. Без буферов записи аппаратное обеспечение является SC, но с буферами записи это не так, что делает буферы записи архитектурно видимыми в многоядерном процессоре.

Переупорядочение магазина-хранилища может произойти, если в ядре есть буфер записи, отличный от FIFO, который позволяет магазинам уходить в другом порядке, чем в том порядке, в котором они были введены. Это может произойти, если первый магазин промахивается в кеше, а второй - или если второй магазин может объединиться с более ранним хранилищем (то есть перед первым хранилищем). Переупорядочение нагрузки может также происходить в динамически запланированных ядрах, которые выполняют инструкции из программы. Это может вести себя так же, как переупорядочение магазинов на другом ядре (можете ли вы придумать пример чередования между двумя потоками?). Переупорядочение ранней загрузки с последующим хранилищем (переупорядочение хранилища-загрузки) может привести к множеству неправильных действий, таких как загрузка значения после отпускания блокировки, которая его защищает (если хранилище является операцией разблокировки). Обратите внимание, что переупорядочивание в хранилище может также возникать из-за локального обхода в обычно реализованном буфере записи FIFO даже с ядром, которое выполняет все команды в порядке выполнения программы.

Поскольку согласованность кэша и согласованность памяти иногда сбиты с толку, поучительно также иметь эту цитату:

В отличие от согласованности, когерентность кэша не отображается ни в программном обеспечении, ни в запросе. Когерентность направлена на то, чтобы кэши системы с разделяемой памятью были функционально невидимы как кеши в одноядерной системе. Правильная согласованность гарантирует, что программист не может определить, имеет ли и где система кэширует, анализируя результаты нагрузок и хранилищ. Это связано с тем, что правильная когерентность гарантирует, что кэши никогда не будут включать новое или другое поведение функционировать (программисты могут все еще иметь возможность вывести вероятную структуру кэша, используя информацию время). Основная цель протоколов когерентности кеша - поддерживать инвариант одиночного писателя-множественного считывателя (SWMR) для каждой ячейки памяти. Важным различием между согласованностью и согласованностью является то, что согласованность указана в на основе расположения памяти, тогда как согласованность указана в отношении местоположений памяти all.

Продолжая нашу ментальную картину, инвариант SWMR соответствует физическому требованию, чтобы в одной точке находилось не более одной частицы, но может быть неограниченное количество наблюдателей любого местоположения.

Ahmed Nassar 29 авг. 2013, в 20:49

47

+1 за аналогию со специальной теорией относительности, я сам пытался провести аналогию. Слишком часто я вижу программистов, исследующих многопоточный код, пытающихся интерпретировать поведение как операции, происходящие в разных потоках, чередующиеся друг с другом в определенном порядке, и я должен сказать им, нет, с многопроцессорными системами понятие одновременности между различными > Точки отсчета </ s> темы теперь бессмысленны. Сравнение со специальной теорией относительности - это хороший способ заставить их уважать сложность проблемы.
Pierre Lebeaupin 26 июнь 2014, в 19:42
54

Таким образом, вы должны сделать вывод, что Вселенная является многоядерной?
Peter K 28 апр. 2015, в 11:36
5

@PeterK: Точно :) А вот очень хорошая визуализация этой картины времени физика Брайана Грина: youtube.com/watch?v=4BjGWLJNPcA&t=22m12s Это «Иллюзия времени [Полный документальный фильм]» на 22-й минуте и 12 секунд
Ahmed Nassar 19 июль 2015, в 02:17
1

Это только я или он переключается с 1D модели памяти (горизонтальная ось) на 2D модель памяти (плоскости одновременности). Я нахожу это немного запутанным, но, возможно, это потому, что я не являюсь носителем языка ... Все еще очень интересное чтение.
Kami Kaze 12 янв. 2017, в 11:31
0

Вы забыли важную часть: « анализируя результаты загрузки и хранения » ... без использования точной информации о времени.
curiousguy 01 март 2019, в 16:22

Показать ещё 3 комментария

92

_{Теперь это многолетний вопрос, но, будучи очень популярным, стоит упомянуть фантастический ресурс для изучения модели памяти С++ 11.}_{Я не вижу смысла подытоживать его разговор, чтобы сделать этот еще один полный ответ, но учитывая, что это тот парень, который на самом деле написал стандарт, я думаю, что стоит посмотреть разговор.}

Herb Sutter имеет трехчасовой разговор о модели памяти С++ 11 под названием "атомное оружие", доступное на сайте Channel9 - часть 1 и часть 2. Разговор довольно технический и охватывает следующие темы:

Оптимизации, расы и модель памяти
Заказ - Что: Приобретать и выпускать
Заказ - Как: Мьютекс, Атомная техника и/или Заборы
Другие ограничения на компиляторы и аппаратные средства
Код Gen & Performance: x86/x64, IA64, POWER, ARM
Расслабленная атомная энергия

В разговоре не говорится об API, а скорее о рассуждениях, предпосылках под капотом и за кулисами (знаете ли вы, что смягченная семантика была добавлена к стандарту только потому, что POWER и ARM не поддерживают синхронизированную нагрузку эффективно?).

eran 20 дек. 2013, в 15:17

6

Этот разговор действительно фантастический, он стоит тех трех часов, которые вы потратите на его просмотр.
ZunTzu 31 авг. 2015, в 12:50
4

@ZunTzu: на большинстве видеоплееров вы можете установить скорость в 1,25, 1,5 или даже в 2 раза больше оригинальной.
Christian Severin 15 дек. 2015, в 17:48
3

@ eran У вас, ребята, есть слайды? ссылки на канале 9 страниц обсуждения не работают.
athos 30 авг. 2016, в 02:33
2

@athos У меня их нет, извини. Попробуйте связаться с каналом 9, я не думаю, что удаление было преднамеренным (я предполагаю, что они получили ссылку от Херба Саттера, опубликованную как есть, и он позже удалил файлы; но это всего лишь предположение ...).
eran 30 авг. 2016, в 06:06

Показать ещё 2 комментария

66

Это означает, что стандарт теперь определяет многопоточность, и он определяет, что происходит в контексте нескольких потоков. Конечно, люди использовали различные реализации, но это, как и вопрос о том, почему мы должны иметь std::string, когда мы все могли бы использовать класс, состоящий из класса string.

Когда вы говорите о потоках POSIX или потоках Windows, это немного иллюзия, поскольку вы говорите о потоках x86, так как это аппаратная функция для запуска одновременно. Модель памяти С++ 0x дает гарантии, будь вы на x86 или ARM, или MIPS, или что-нибудь еще, что вы можете придумайте.

Puppy 11 июнь 2011, в 23:45

25

Потоки Posix не ограничиваются x86. Действительно, первые системы, на которых они были реализованы, были, вероятно, не системами x86. Потоки Posix не зависят от системы и действуют на всех платформах Posix. Это также не совсем верно, что это аппаратное свойство, потому что потоки Posix также могут быть реализованы посредством совместной многозадачности. Но, конечно же, большинство проблем с многопоточностью возникают только при реализации аппаратных потоков (а некоторые даже только в многопроцессорных / многоядерных системах).
celtschk 18 авг. 2013, в 19:56

48

Для языков, не определяющих модель памяти, вы пишете код для языка и модель памяти, указанную в архитектуре процессора. Процессор может выбрать способ переназначения доступа к памяти для производительности. Итак, , если ваша программа имеет расы данных (гонка данных - это когда возможно одновременное обращение к нескольким ядрам/гиперпотокам к одной и той же памяти), то ваша программа не является перекрестной платформой из-за ее зависимости от процессор. Вы можете обратиться к руководствам по программному обеспечению Intel или AMD, чтобы узнать, как процессоры могут повторно заказать доступ к памяти.

Очень важно, что блокировки (и concurrency семантики с блокировкой) обычно реализуются кросс-платформенным способом... Поэтому, если вы используете стандартные блокировки в многопоточной программе без расчётов данных, вы не выполняете приходится беспокоиться о моделях памяти с межплатформенной платформой.

Интересно, что компиляторы Microsoft для С++ имеют семантику получения/выпуска для volatile, которая является расширением С++, чтобы справиться с отсутствием модели памяти в С++ http://msdn.microsoft.com/en-us/library/12a04hfd(v=vs.80).aspx. Однако, учитывая, что Windows работает только на x86/x64, это не говорит о многом (модели памяти Intel и AMD позволяют легко и эффективно реализовать семантику получения/выпуска на языке).

ritesh 26 июль 2011, в 05:14

1

Это правда, что когда был написан ответ, Windows работала только на x86 / x64, но в какой-то момент Windows работала на IA64, MIPS, Alpha AXP64, PowerPC и ARM. Сегодня он работает на различных версиях ARM, которые отличаются от памяти x86, и нигде не так просты.
Lorenzo Dematté 06 дек. 2016, в 10:12
0

Эта ссылка несколько неработающая (говорится в документации по Visual Studio 2005 «Устаревшие» ). Хотите обновить его?
Peter Mortensen 05 нояб. 2017, в 23:09
3

Это не было правдой, даже когда ответ был написан.
Ben 02 дек. 2017, в 10:14
0

« доступ к одной и той же памяти одновременно » для доступа конфликтующим способом
curiousguy 13 июнь 2018, в 23:22

Показать ещё 2 комментария

22

Если вы используете мьютексы для защиты всех ваших данных, вам действительно не нужно беспокоиться. Мьютексы всегда обеспечивали достаточные гарантии порядка и видимости.

Теперь, если вы использовали атомы или алгоритмы блокировки, вам нужно подумать о модели памяти. Модель памяти точно описывает, когда атомистика обеспечивает гарантии порядка и видимости и обеспечивает переносные ограждения для гарантированных вручную гарантий.

Ранее атомы выполнялись с использованием встроенных средств компилятора или некоторой библиотеки более высокого уровня. Заборы были бы выполнены с использованием инструкций, специфичных для процессора (барьеров памяти).

ninjalj 12 июнь 2011, в 00:10

18

Раньше проблема заключалась в том, что не было такого понятия, как мьютекс (с точки зрения стандарта C ++). Таким образом, единственные гарантии, которые вам предоставили, были от производителя мьютекса, что было хорошо, если вы не портировали код (так как незначительные изменения в гарантиях трудно обнаружить). Теперь мы получаем гарантии, предусмотренные стандартом, который должен быть переносимым между платформами.
Martin York 12 июнь 2011, в 00:09
4

@Martin: в любом случае одна вещь - это модель памяти, а другая - это атомарные и потоковые примитивы, которые работают поверх этой модели памяти.
ninjalj 12 июнь 2011, в 00:18
4

Кроме того, моя точка зрения заключалась в том, что раньше на уровне языка в основном не было модели памяти, это была модель памяти базового процессора. Теперь есть модель памяти, которая является частью основного языка; OTOH, мьютексы и тому подобное всегда можно сделать в виде библиотеки.
ninjalj 12 июнь 2011, в 00:36
3

Это также может быть реальной проблемой для людей, пытающихся написать библиотеку мьютекса. Когда ЦП, контроллер памяти, ядро, компилятор и «библиотека C» реализованы разными командами, и некоторые из них находятся в резком несогласии с тем, как этот материал должен работать, ну, иногда мы, системные программисты, должны сделать так, чтобы представить внешний вид приложений на уровне приложений совсем не приятно.
zwol 12 июнь 2011, в 02:02
10

К сожалению, недостаточно защитить ваши структуры данных с помощью простых мьютексов, если в вашем языке отсутствует согласованная модель памяти. Существуют различные оптимизации компилятора, которые имеют смысл в однопоточном контексте, но когда в игру вступают несколько потоков и ядер процессора, изменение порядка доступа к памяти и другие оптимизации могут привести к неопределенному поведению. Для получения дополнительной информации см. «Hans Boehm:« Потоки не могут быть реализованы в виде библиотеки »: citeseer.ist.psu.edu/viewdoc/…
exDM69 13 июнь 2011, в 12:45
0

@ esDM69: этого достаточно, чтобы защитить все ваши данные с помощью мьютексов и изолировать низкоуровневые заборы и атомные элементы в библиотеке мьютексов. Покажите мне контрпример.
ninjalj 13 июнь 2011, в 18:02
0

Связанная статья @ exDM69 включает в себя все контрпримеры, которые вы можете захотеть.
zwol 28 июль 2011, в 16:28
1

@ninjalj В статье есть контрпримеры, но в двух словах: чтение и запись без выравнивания по словам и оптимизация, которая объединяет много маленьких записей в одну большую (например, 7 однобайтовых записей могут быть заменены на одну 64-битную операцию чтения-изменения-записи) , Поэтому, если вы пытаетесь защитить отдельные биты и байты с помощью мьютекса, вы ищете проблему (и поможет согласованная модель памяти).
exDM69 04 авг. 2011, в 11:13
0

@ exDM69: Если компилятор может быть вынужден / гарантированно рассматривать действия, которые получают и освобождают мьютексы, как если бы они потенциально могли получить доступ к любому объекту, адрес которого был выставлен внешнему миру, этого было бы достаточно для использования многопоточного кода » обычные »объекты для связи между потоками, если они защищены мьютексами. К сожалению, некоторые компиляторы, использующие Whole Program Optimization, могут исследовать код для операций получения / выпуска и сделать вывод, что объекты, к которым такой код не имеет прямого доступа, как следствие, не будут доступны ...
supercat 03 дек. 2017, в 20:50
0

... делать релиз и приобретать. К сожалению, стандарт не обеспечивает каких-либо стандартных средств, гарантирующих, что все restrict квалифицированные доступы, которые выполняются до определенной точки в коде, должны вести себя так, как если бы к ним обращались до любых таких доступов, которые следуют за этой точкой в коде.
supercat 03 дек. 2017, в 20:53
0

@supercat Для любого процессора, который требует специальной операции для «операций получения / выпуска», у вас будет либо оператор asm , либо системный вызов. В любом случае, глобальная оптимизация прекращается.
curiousguy 26 июнь 2018, в 17:46
0

@curiousguy: некоторые системы сборки генерируют информацию о функциях, указывающую, какие виды побочных эффектов они могут иметь, а затем применяют оптимизации к вызовам таких функций. Даже если кажется нецелесообразным применять глобальную оптимизацию к определенному вызову функции или это кажется плохой идеей, такие соображения не гарантируют, что «умный» разработчик компилятора не найдет способ сделать это в любом случае.
supercat 26 июнь 2018, в 18:10
0

@supercat Если вы собираетесь аннотировать объявления функций, вы можете аннотировать вызовы функций и описывать инварианты. Таким образом, вы можете описать, что вызов getppid() является «памятью getppid() », она не изменяет какой-либо объект в памяти, и что getpid() функционально «чист» (результат является просто функцией аргументов функции), т.е. он возвращает постоянное значение, которое может быть кэшировано. Это означает, что значения объектов, потенциально видимых другими потоками, не нужно перезагружать после любого из вызовов, и что значение getpid() может даже быть кэшировано после вызова произвольной функции.
curiousguy 26 июнь 2018, в 19:06
0

@curiousguy: Действительно. Есть ли какая-то особая причина полагать, что «умная» реализация не решит, что библиотечные функции, чтобы получить или освободить мьютекс, не получат доступ ни к каким объектам за пределами мьютекса, даже если весь смысл использования мьютексов прежде всего заключается в том, чтобы безопасно разрешить возможность внешнего доступа к объектам в произвольные моменты времени до получения мьютекса или после освобождения мьютекса?
supercat 26 июнь 2018, в 19:22
0

@supercat Если вам требуется ограничение памяти или инструкция LOCK-ed (включая неявный LOCK) в вашей функции, компилятор не будет переупорядочивать по крайней мере, потому что он не понимает ассемблер. Проблема в том, что вам не нужна сборка.
curiousguy 01 март 2019, в 16:27
0

@curiousguy: Одна из главных причин, по которой C был спроектирован в первую очередь, заключалась в том, чтобы свести к минимуму необходимость использования языка ассемблера, тем более что ассемблерам разных поставщиков часто требуется разный синтаксис для одного и того же сгенерированного машинного кода. Я нахожу абсурдным, что нужно было бы использовать специфические для поставщика директивы asm, чтобы помешать воздержаться от выполнения чего-то, что каждая реализация должна быть в состоянии воздерживаться от выполнения.
supercat 01 март 2019, в 16:57
0

@supercat Теперь есть atomic_signal_fence чтобы заставить компилятор рассматривать NOP как барьер ABI (эквивалент внешнего вызова функции NOP без вызова)
curiousguy 01 март 2019, в 21:39
0

К сожалению, N1570 7.17.4 [Ограждения] только определяет поведение ограждений как влияющих на «атомарные» операции. Кроме того, ничто не запрещает реализации заставлять свою функцию запуска проверять машинный код на наличие внешней функции, наблюдать, действительно ли она что-то делает или нет, а затем устанавливать флаг, который другой код мог бы использовать, чтобы игнорировать любые последствия его последовательности, если он этого не делает. «т.
supercat 01 март 2019, в 23:00
0

@curiousguy: см. выше. Единственная веская причина для того, чтобы стандарт C не включал директивы барьера секвенирования, состоит в том, что реализации, предназначенные для целей, требующих такой семантики, могли бы предоставлять их без специальных директив (например, обрабатывая volatile обращения или вызовы функций как получение / освобождение), и не было никакого причина полагать, что авторы компилятора были бы неспособны сделать это без мандата. С другой стороны, «целевые» барьеры могут позволить лучшую оптимизацию, чем глобальные, без каких-либо проблем с реализацией.
supercat 01 март 2019, в 23:07
0

@supercat Поскольку одно из основных применений volatile - асинхронные сигналы, глупо не иметь atomic_signal_fence также упорядочивать регулярный доступ WRT к atomic_signal_fence к volatiles.
curiousguy 02 март 2019, в 05:26
0

@curiousguy: Также глупо требовать, чтобы реализация, утверждающая, что она предлагала какие-либо функции в atomic.h, также заявляла о поддержке всех функций, независимо от того, поддерживается ли их полезная поддержка или нет никаких указаний. Многие программы требуют, чтобы атомарные операции были глобально-атомарными и неблокирующими, но было бы все равно, сможет ли реализация C гарантировать, что они не блокируются. К сожалению, единственным стандартом качества, предусмотренным в Стандарте, является «отсутствие блокировки». Интересно, что авторы Стандарта ожидают от реализации с этой информацией?
supercat 02 март 2019, в 18:38
0

Давайте продолжим эту дискуссию в чате .
curiousguy 02 март 2019, в 19:17

Показать ещё 20 комментариев

Ещё вопросы

+1 за аналогию со специальной теорией относительности, я сам пытался провести аналогию. Слишком часто я вижу программистов, исследующих многопоточный код, пытающихся интерпретировать поведение как операции, происходящие в разных потоках, чередующиеся друг с другом в определенном порядке, и я должен сказать им, нет, с многопроцессорными системами понятие одновременности между различными > Точки отсчета </ s> темы теперь бессмысленны. Сравнение со специальной теорией относительности - это хороший способ заставить их уважать сложность проблемы.
Таким образом, вы должны сделать вывод, что Вселенная является многоядерной?
@PeterK: Точно :) А вот очень хорошая визуализация этой картины времени физика Брайана Грина: youtube.com/watch?v=4BjGWLJNPcA&t=22m12s Это «Иллюзия времени [Полный документальный фильм]» на 22-й минуте и 12 секунд
Это только я или он переключается с 1D модели памяти (горизонтальная ось) на 2D модель памяти (плоскости одновременности). Я нахожу это немного запутанным, но, возможно, это потому, что я не являюсь носителем языка ... Все еще очень интересное чтение.
Вы забыли важную часть: « анализируя результаты загрузки и хранения » ... без использования точной информации о времени.
Этот разговор действительно фантастический, он стоит тех трех часов, которые вы потратите на его просмотр.
@ZunTzu: на большинстве видеоплееров вы можете установить скорость в 1,25, 1,5 или даже в 2 раза больше оригинальной.
@ eran У вас, ребята, есть слайды? ссылки на канале 9 страниц обсуждения не работают.
@athos У меня их нет, извини. Попробуйте связаться с каналом 9, я не думаю, что удаление было преднамеренным (я предполагаю, что они получили ссылку от Херба Саттера, опубликованную как есть, и он позже удалил файлы; но это всего лишь предположение ...).
Потоки Posix не ограничиваются x86. Действительно, первые системы, на которых они были реализованы, были, вероятно, не системами x86. Потоки Posix не зависят от системы и действуют на всех платформах Posix. Это также не совсем верно, что это аппаратное свойство, потому что потоки Posix также могут быть реализованы посредством совместной многозадачности. Но, конечно же, большинство проблем с многопоточностью возникают только при реализации аппаратных потоков (а некоторые даже только в многопроцессорных / многоядерных системах).
Это правда, что когда был написан ответ, Windows работала только на x86 / x64, но в какой-то момент Windows работала на IA64, MIPS, Alpha AXP64, PowerPC и ARM. Сегодня он работает на различных версиях ARM, которые отличаются от памяти x86, и нигде не так просты.
Эта ссылка несколько неработающая (говорится в документации по Visual Studio 2005 «Устаревшие» ). Хотите обновить его?
Это не было правдой, даже когда ответ был написан.
« доступ к одной и той же памяти одновременно » для доступа конфликтующим способом
Раньше проблема заключалась в том, что не было такого понятия, как мьютекс (с точки зрения стандарта C ++). Таким образом, единственные гарантии, которые вам предоставили, были от производителя мьютекса, что было хорошо, если вы не портировали код (так как незначительные изменения в гарантиях трудно обнаружить). Теперь мы получаем гарантии, предусмотренные стандартом, который должен быть переносимым между платформами.
@Martin: в любом случае одна вещь - это модель памяти, а другая - это атомарные и потоковые примитивы, которые работают поверх этой модели памяти.
Кроме того, моя точка зрения заключалась в том, что раньше на уровне языка в основном не было модели памяти, это была модель памяти базового процессора. Теперь есть модель памяти, которая является частью основного языка; OTOH, мьютексы и тому подобное всегда можно сделать в виде библиотеки.
Это также может быть реальной проблемой для людей, пытающихся написать библиотеку мьютекса. Когда ЦП, контроллер памяти, ядро, компилятор и «библиотека C» реализованы разными командами, и некоторые из них находятся в резком несогласии с тем, как этот материал должен работать, ну, иногда мы, системные программисты, должны сделать так, чтобы представить внешний вид приложений на уровне приложений совсем не приятно.
К сожалению, недостаточно защитить ваши структуры данных с помощью простых мьютексов, если в вашем языке отсутствует согласованная модель памяти. Существуют различные оптимизации компилятора, которые имеют смысл в однопоточном контексте, но когда в игру вступают несколько потоков и ядер процессора, изменение порядка доступа к памяти и другие оптимизации могут привести к неопределенному поведению. Для получения дополнительной информации см. «Hans Boehm:« Потоки не могут быть реализованы в виде библиотеки »: citeseer.ist.psu.edu/viewdoc/…
@ esDM69: этого достаточно, чтобы защитить все ваши данные с помощью мьютексов и изолировать низкоуровневые заборы и атомные элементы в библиотеке мьютексов. Покажите мне контрпример.
Связанная статья @ exDM69 включает в себя все контрпримеры, которые вы можете захотеть.
@ninjalj В статье есть контрпримеры, но в двух словах: чтение и запись без выравнивания по словам и оптимизация, которая объединяет много маленьких записей в одну большую (например, 7 однобайтовых записей могут быть заменены на одну 64-битную операцию чтения-изменения-записи) , Поэтому, если вы пытаетесь защитить отдельные биты и байты с помощью мьютекса, вы ищете проблему (и поможет согласованная модель памяти).
@ exDM69: Если компилятор может быть вынужден / гарантированно рассматривать действия, которые получают и освобождают мьютексы, как если бы они потенциально могли получить доступ к любому объекту, адрес которого был выставлен внешнему миру, этого было бы достаточно для использования многопоточного кода » обычные »объекты для связи между потоками, если они защищены мьютексами. К сожалению, некоторые компиляторы, использующие Whole Program Optimization, могут исследовать код для операций получения / выпуска и сделать вывод, что объекты, к которым такой код не имеет прямого доступа, как следствие, не будут доступны ...
... делать релиз и приобретать. К сожалению, стандарт не обеспечивает каких-либо стандартных средств, гарантирующих, что все restrict квалифицированные доступы, которые выполняются до определенной точки в коде, должны вести себя так, как если бы к ним обращались до любых таких доступов, которые следуют за этой точкой в коде.
@supercat Для любого процессора, который требует специальной операции для «операций получения / выпуска», у вас будет либо оператор asm , либо системный вызов. В любом случае, глобальная оптимизация прекращается.
@curiousguy: некоторые системы сборки генерируют информацию о функциях, указывающую, какие виды побочных эффектов они могут иметь, а затем применяют оптимизации к вызовам таких функций. Даже если кажется нецелесообразным применять глобальную оптимизацию к определенному вызову функции или это кажется плохой идеей, такие соображения не гарантируют, что «умный» разработчик компилятора не найдет способ сделать это в любом случае.
@supercat Если вы собираетесь аннотировать объявления функций, вы можете аннотировать вызовы функций и описывать инварианты. Таким образом, вы можете описать, что вызов getppid() является «памятью getppid() », она не изменяет какой-либо объект в памяти, и что getpid() функционально «чист» (результат является просто функцией аргументов функции), т.е. он возвращает постоянное значение, которое может быть кэшировано. Это означает, что значения объектов, потенциально видимых другими потоками, не нужно перезагружать после любого из вызовов, и что значение getpid() может даже быть кэшировано после вызова произвольной функции.
@curiousguy: Действительно. Есть ли какая-то особая причина полагать, что «умная» реализация не решит, что библиотечные функции, чтобы получить или освободить мьютекс, не получат доступ ни к каким объектам за пределами мьютекса, даже если весь смысл использования мьютексов прежде всего заключается в том, чтобы безопасно разрешить возможность внешнего доступа к объектам в произвольные моменты времени до получения мьютекса или после освобождения мьютекса?
@supercat Если вам требуется ограничение памяти или инструкция LOCK-ed (включая неявный LOCK) в вашей функции, компилятор не будет переупорядочивать по крайней мере, потому что он не понимает ассемблер. Проблема в том, что вам не нужна сборка.
@curiousguy: Одна из главных причин, по которой C был спроектирован в первую очередь, заключалась в том, чтобы свести к минимуму необходимость использования языка ассемблера, тем более что ассемблерам разных поставщиков часто требуется разный синтаксис для одного и того же сгенерированного машинного кода. Я нахожу абсурдным, что нужно было бы использовать специфические для поставщика директивы asm, чтобы помешать воздержаться от выполнения чего-то, что каждая реализация должна быть в состоянии воздерживаться от выполнения.
@supercat Теперь есть atomic_signal_fence чтобы заставить компилятор рассматривать NOP как барьер ABI (эквивалент внешнего вызова функции NOP без вызова)
К сожалению, N1570 7.17.4 [Ограждения] только определяет поведение ограждений как влияющих на «атомарные» операции. Кроме того, ничто не запрещает реализации заставлять свою функцию запуска проверять машинный код на наличие внешней функции, наблюдать, действительно ли она что-то делает или нет, а затем устанавливать флаг, который другой код мог бы использовать, чтобы игнорировать любые последствия его последовательности, если он этого не делает. «т.
@curiousguy: см. выше. Единственная веская причина для того, чтобы стандарт C не включал директивы барьера секвенирования, состоит в том, что реализации, предназначенные для целей, требующих такой семантики, могли бы предоставлять их без специальных директив (например, обрабатывая volatile обращения или вызовы функций как получение / освобождение), и не было никакого причина полагать, что авторы компилятора были бы неспособны сделать это без мандата. С другой стороны, «целевые» барьеры могут позволить лучшую оптимизацию, чем глобальные, без каких-либо проблем с реализацией.
@supercat Поскольку одно из основных применений volatile - асинхронные сигналы, глупо не иметь atomic_signal_fence также упорядочивать регулярный доступ WRT к atomic_signal_fence к volatiles.
@curiousguy: Также глупо требовать, чтобы реализация, утверждающая, что она предлагала какие-либо функции в atomic.h, также заявляла о поддержке всех функций, независимо от того, поддерживается ли их полезная поддержка или нет никаких указаний. Многие программы требуют, чтобы атомарные операции были глобально-атомарными и неблокирующими, но было бы все равно, сможет ли реализация C гарантировать, что они не блокируются. К сожалению, единственным стандартом качества, предусмотренным в Стандарте, является «отсутствие блокировки». Интересно, что авторы Стандарта ожидают от реализации с этой информацией?
Давайте продолжим эту дискуссию в чате .

Nemo · Accepted Answer · 2011-06-12T01-33-00.000Z

Во-первых, вы должны научиться думать, как юрист по языку.

Спецификация C++ не ссылается ни на какой конкретный компилятор, операционную систему или процессор. Он ссылается на абстрактную машину, которая является обобщением реальных систем. В мире юристов, работа программиста заключается в написании кода для абстрактной машины; работа компилятора заключается в том, чтобы реализовать этот код на конкретной машине. Если вы строго кодируете спецификацию, вы можете быть уверены, что ваш код будет компилироваться и запускаться без изменений в любой системе с совместимым компилятором C++, будь то сегодня или через 50 лет.

Абстрактная машина в спецификации C++ 98/C++ 03 принципиально однопоточная. Таким образом, невозможно написать многопоточный код C++, который полностью переносится по спецификации. Спецификация даже не говорит ничего об атомарности загрузок и хранилищ памяти или о порядке загрузки и хранения данных, не говоря уже о таких вещах, как мьютексы.

Конечно, вы можете написать многопоточный код на практике для конкретных конкретных систем - например, pthreads или Windows. Но нет стандартного способа написания многопоточного кода для C++ 98/C++ 03.

Абстрактная машина в C++ 11 многопоточная по дизайну. Он также имеет хорошо определенную модель памяти; то есть он говорит, что компилятор может и не может делать, когда дело доходит до доступа к памяти.

Рассмотрим следующий пример, при котором пару глобальных переменных обращаются одновременно двумя потоками:

           Global
           int x, y;

Thread 1            Thread 2
x = 17;             cout << y << " ";
y = 37;             cout << x << endl;

Что могло бы вывести Thread 2?

В C++ 98/C++ 03 это даже не неопределенное поведение; сам вопрос бессмыслен, поскольку стандарт не рассматривает ничего, называемое "нитью".

В C++ 11 результатом является неопределенное поведение, потому что нагрузки и магазины не обязательно должны быть атомарными вообще. Что может показаться не очень хорошим улучшением... И само по себе это не так.

Но с C++ 11 вы можете написать следующее:

           Global
           atomic<int> x, y;

Thread 1                 Thread 2
x.store(17);             cout << y.load() << " ";
y.store(37);             cout << x.load() << endl;

Теперь все становится намного интереснее. Прежде всего, здесь определяется поведение. Thread 2 теперь может печатать 0 0 (если он работает до Thread 1), 37 17 (если он выполняется после Thread 1) или 0 17 (если он запускается после того, как Thread 1 назначает x, но до того, как он назначит y).

То, что он не может напечатать, равен 37 0, потому что режим по умолчанию для атомных нагрузок/хранилищ в C++ 11 заключается в обеспечении последовательной согласованности. Это означает, что все нагрузки и хранилища должны быть "как если бы", они произошли в том порядке, в котором вы их записывали в каждом потоке, тогда как операции между потоками могут чередоваться, но система нравится. Таким образом, поведение Atomics по умолчанию обеспечивает как атомарность, так и порядок загрузки и хранения.

Теперь, на современном процессоре, обеспечение последовательной согласованности может быть дорогостоящим. В частности, компилятор, вероятно, испускает полномасштабные барьеры памяти между каждым доступом здесь. Но если ваш алгоритм может терпеть неуправляемые нагрузки и магазины; т.е. если он требует атомарности, но не упорядочивает; т.е. если он может вынести 37 0 качестве выхода из этой программы, тогда вы можете написать это:

           Global
           atomic<int> x, y;

Thread 1                            Thread 2
x.store(17,memory_order_relaxed);   cout << y.load(memory_order_relaxed) << " ";
y.store(37,memory_order_relaxed);   cout << x.load(memory_order_relaxed) << endl;

Чем более современный процессор, тем более вероятно, что это будет быстрее, чем предыдущий пример.

Наконец, если вам просто нужно сохранить определенные нагрузки и магазины в порядке, вы можете написать:

           Global
           atomic<int> x, y;

Thread 1                            Thread 2
x.store(17,memory_order_release);   cout << y.load(memory_order_acquire) << " ";
y.store(37,memory_order_release);   cout << x.load(memory_order_acquire) << endl;

Это возвращает нас к упорядоченным нагрузкам и магазинам - поэтому 37 0 больше не является возможным выходом, но он делает это с минимальными накладными расходами. (В этом тривиальном примере результат такой же, как полномасштабная последовательная согласованность, в более крупной программе этого не будет).

Конечно, если только выходы, которые вы хотите увидеть, 0 0 или 37 17, вы можете просто обернуть мьютексом вокруг исходного кода. Но если вы зачитали это далеко, я уверен, вы уже знаете, как это работает, и этот ответ уже дольше, чем я предполагал :-).

Итак, нижняя строка. Мьютексы велики, и C++ 11 их стандартизирует. Но иногда по соображениям производительности вам нужны примитивы нижнего уровня (например, классический шаблон с двойной проверкой блокировки). Новый стандарт обеспечивает высокоуровневые гаджеты, такие как мьютексы и переменные состояния, а также предоставляет низкоуровневые гаджеты, такие как атомные типы и различные варианты защиты памяти. Итак, теперь вы можете писать сложные высокопроизводительные параллельные подпрограммы полностью на языке, указанном стандартом, и вы можете быть уверены, что ваш код будет компилироваться и работать без изменений как на сегодняшних, так и на завтрашних.

Хотя, если быть откровенным, если вы не являетесь экспертом и не работаете над каким-то серьезным низкоуровневым кодом, вы, вероятно, должны придерживаться мьютексов и переменных условий. Это то, что я намереваюсь сделать.

Подробнее об этом см. В этом сообщении в блоге.

Хороший ответ, но это действительно требует некоторых примеров новых примитивов. Кроме того, я думаю, что порядок памяти без примитивов такой же, как и до C ++ 0x: никаких гарантий нет.
@John: я знаю, но я все еще изучаю примитивы сам :-). Также я думаю, что они гарантируют, что доступ к байту является атомарным (хотя и не упорядоченным), поэтому я выбрал «char» для моего примера ... Но я даже не уверен на 100% в этом ... Если вы хотите предложить что-нибудь хорошее » учебник "ссылки я добавлю их в мой ответ
@Nemo: Отличный ответ. Теперь у меня есть одно сомнение: когда выходной поток равен 37 0 в Thread 2 , разве вы не подразумевали, что Thread 1 выполнит второй оператор перед первым оператором? Если это так, не приведет ли это к нелогичному и нежелательному результату? Я имею в виду, что если второй оператор требует, чтобы первый оператор был выполнен первым, чтобы быть логически правильным?
@Nemo: Еще одна вещь, я не понимал отношения между моделью памяти C ++ 0x и многопоточностью C ++ 0x. Не могли бы вы подчеркнуть это, если вы говорили об этом где-нибудь в своем ответе, чтобы я мог уделить этому особое внимание?
@ Наваз: Да! Доступ к памяти может быть переупорядочен компилятором или процессором. Подумайте (например) о кешах и спекулятивных нагрузках. Порядок попадания в системную память может отличаться от того, что вы кодировали. Компилятор и процессор обеспечат, чтобы такие перестановки не нарушали однопоточный код. Для многопоточного кода «модель памяти» характеризует возможные переупорядочения, а также то, что происходит, если два потока читают / записывают одно и то же место одновременно, и то, как вы управляете обоими. Для однопоточного кода модель памяти не имеет значения.
@Nawaz, @Nemo - небольшая деталь: новая модель памяти актуальна в однопоточном коде, поскольку она определяет неопределенность некоторых выражений, таких как i = i++ . Старая концепция точек последовательности была отброшена; новый стандарт определяет то же самое, используя отношение секвенирования до, что является лишь частным случаем более общей концепции взаимодействия между потоками до .
Хороший ответ, хотя обратите внимание, что вам все равно нужно будет инициализировать эти атомарные переменные, чтобы избежать неопределенного поведения, если только где-то в новых стандартных целочисленных типах не инициализируется по умолчанию. Обычно только определенные компиляторы в отладочных сборках устанавливают эти значения в 0 неявно.
@ AJG85: Раздел 3.6.2 проекта спецификации C ++ 0x гласит: «Переменные со статической продолжительностью хранения (3.7.1) или продолжительностью хранения потока (3.7.2) должны быть инициализированы нулями (8.5), прежде чем любая другая инициализация займет место." Поскольку x, y в этом примере являются глобальными, они имеют статическую длительность хранения и, следовательно, будут инициализироваться нулями, я полагаю.
«В C ++ 11 результатом является неопределенное поведение, потому что загрузки и хранилища не должны быть атомарными вообще». - действительно ли это «не» должно быть здесь?
@mlvljr: Я уверен, что сказал, что имел в виду ... Хотя я допускаю, что этот ответ был бы лучше, если бы я где-то использовал слова «гонка данных».
В большинстве случаев нет смысла реализовывать инициализацию с двойной проверкой блокировки в C ++ 11, так как инициализация локальной статической переменной уже поточно-ориентирована.
@newbie: Правда, C + 11 систематизировал обычную практику и сделал «синглтон Мейерса» поточно-ориентированным. Я просто привел пример того, что вы можете сделать с низкоуровневыми примитивами синхронизации.
@Nemo Не могли бы вы объяснить 37, 0 часть? Как бы я ни посмотрел, x всегда назначается перед y. Таким образом, когда у 37, это означает, что х уже было присвоено его значение. Потому что если y равно 37, а x равно 0, то это означает, что однопоточное выполнение не является последовательным, что просто неверно.
@Zindarod: и компилятор, и процессор могут свободно memory_order_relaxed порядок загрузки и сохранения при использовании memory_order_relaxed .
@Nemo: я понимаю, что процессор может генерировать проблему «37, 0» из-за несоответствия между уровнями основной памяти и кэша. Таким образом, значение, прочитанное или записанное одним потоком, может отличаться от значения, прочитанного / записанного другим потоком. Однако я не понимаю, как компилятор может влиять на порядок операций в каждом отдельном потоке. Afaik, он просто «переводит» ваш код в машинные инструкции в том же порядке, что вы написали. Таким образом, проблема, по-моему, больше связана с процессорами, уровнями памяти и планированием потоков, чем с компиляторами.
@Bemipefe: Нет, компилятор не обязан переводить ваш код в том же порядке, в котором вы его написали - он разрешает переупорядочивать операции при условии, что общий эффект тот же. Это может быть сделано, например, потому что переупорядочение позволяет производить более быстрый (или меньший) код.
@Bemipefe " несоответствие между уровнями основной памяти и кеша " Нет, кеш всегда поддерживается постоянным.
@psmears « при условии, что общий эффект тот же », что утверждение должно быть квалифицированным. Эффект заметно отличается!
@curiousguy: поддерживается ли согласованность кэшей, зависит от архитектуры процессора.
@curiousguy: Я не сказал, что эффект тот же - возможно, вы пропустили слово «в целом»? (т.е. промежуточные состояния могут отличаться, но состояния до / после будут одинаковыми) Очевидно, что это не полная история, но трудно вписать все определение языка в поле для комментариев ;-)