Почему порядок циклов влияет на производительность при итерации по двумерному массиву?

Question

Почему порядок циклов влияет на производительность при итерации по двумерному массиву?

266

Возможный дубликат:
Какой из этих двух циклов более эффективен с точки зрения времени и производительности кэша

Ниже приведены две программы, которые почти идентичны, за исключением того, что я переключил переменные i и j. Они оба работают в разное время. Может ли кто-нибудь объяснить, почему это происходит?

Версия 1

#include <stdio.h>
#include <stdlib.h>

main () {
  int i,j;
  static int x[4000][4000];
  for (i = 0; i < 4000; i++) {
    for (j = 0; j < 4000; j++) {
      x[j][i] = i + j; }
  }
}

Версия 2

#include <stdio.h>
#include <stdlib.h>

main () {
  int i,j;
  static int x[4000][4000];
  for (j = 0; j < 4000; j++) {
     for (i = 0; i < 4000; i++) {
       x[j][i] = i + j; }
   }
}

Mark 30 март 2012, в 02:35

Источник

22

en.wikipedia.org/wiki/...
Brendan Long 30 март 2012, в 02:21
6

Можете ли вы добавить результаты теста?
naught101 30 март 2012, в 03:25
3

Похожие страницы : stackoverflow.com/questions/9888154/…
Thomas Padron-McCarthy 30 март 2012, в 03:37
14

@ naught101 Тесты покажут разницу в производительности от 3 до 10 раз. Это базовый C / C ++, я полностью озадачен тем, как он получил так много голосов ...
TC1 30 март 2012, в 09:12
1

я думаю, что эта проблема связана с загрузкой страницы массива в память с помощью политики подкачки ОС
Maziar Aboualizadeh Behbahani 30 март 2012, в 13:45
2

Почему я всегда пропускаю вопросы с высоким голосом?
Sebastian Mach 30 март 2012, в 15:08
0

Я думаю, что вопрос может быть не только для ц.
Omar 30 март 2012, в 17:41
9

@ TC1: я не думаю, что это так просто; возможно промежуточный. Но не должно быть сюрпризом, что «базовые» вещи, как правило, полезны для большего числа людей, отсюда и множество возражений. Более того, это вопрос, который трудно гуглить, даже если он «базовый».
LarsH 30 март 2012, в 18:50
1

Я добавил этот тест как javascript на jsperf.com/2-dimensional-array-loops, и вы можете проверить эффект там
Rodolfo 30 март 2012, в 20:46
0

@LarsH Я вообще никогда не говорил, что это просто, я говорил, что это базовый C / C ++. Эти языки уже достаточно развиты. Подобные «уловки и колдовство» приходят с ними как данность, и любой, кто их использует, должен заранее ознакомиться с ними. Есть еще пара, с моей стороны, использующих постфиксные инкременты вместо префикса на итераторах STL, чтобы предотвратить создание ненужной копии, но я понимаю, вы понимаете суть. Они дают вам всю веревку, которая вам нужна, чтобы повеситься, и никаких признаков того, что вы собираетесь, большинство других языков (более высокого уровня) не позволяют вам этого делать.
TC1 30 март 2012, в 21:50
3

@ TC1: базовый C - это то, о чем я говорил (эта проблема не относится к C ++, что является огромным скачком в сложности). Но эта же проблема может относиться и к бейсику. «Любой, кто их использует, должен заранее ознакомиться с ними», - легко может сказать знающий человек. Вы узнали об этой конкретной проблеме до того, как сделали свой первый вложенный цикл с двумерным массивом? Я знаю, я уверен, что нет! Я не думаю, что использовал такие большие массивы, но это было не потому, что я знал, чтобы держаться от них подальше из-за производительности!
LarsH 31 март 2012, в 11:43
0

Может отличаться для ядер GPU, чем для CPU.
huseyin tugrul buyukisik 22 май 2013, в 19:46
0

Я вновь открываю этот вопрос, так как считаю, что это лучший «канонический дубликат», чем связанный, в основном из-за некоторых хороших ответов, размещенных здесь.
Lundin 02 май 2016, в 13:23
0

@ naught101 Результаты теста для N = 10000: первый метод в 3,68 раза медленнее, 1,092 с против 0,296 с. (Результаты одного прогона, между прогонами довольно много вариаций). Разница в скорости, вероятно, будет зависеть от относительного размера кеша вашего процессора и размера выбранного массива.
RoG 02 нояб. 2017, в 12:10
1

GCC 8 и новый Clang 7 (с -mllvm -enable-loopinterchange ) улучшили свои процедуры оптимизации обмена циклами и сгенерировали одинаковую сборку для обоих случаев gcc.godbolt.org/z/EB-PRg
Nikita Kniazev 07 сен. 2018, в 12:20

Показать ещё 13 комментариев

Теги:

optimization

performance

c

for-loop

cpu-cache

7 ответов

58

Ничего общего с сборкой. Это связано с пропуском кеша.

Многомерные массивы C сохраняются с последним измерением как самым быстрым. Таким образом, первая версия пропустит кеш на каждой итерации, тогда как вторая версия не будет. Поэтому вторая версия должна быть значительно быстрее.

Смотрите также: http://en.wikipedia.org/wiki/Loop_interchange.

Oliver Charlesworth 30 март 2012, в 02:38

21

Версия 2 будет работать намного быстрее, потому что она использует ваш кеш компьютера лучше, чем версия 1. Если вы думаете об этом, массивы - это просто смежные области памяти. Когда вы запрашиваете элемент в массиве, ваша ОС, вероятно, принесет страницу памяти в кеш, содержащий этот элемент. Однако, поскольку следующие несколько элементов также находятся на этой странице (поскольку они смежны), следующий доступ уже будет в кеше! Это то, что делает версия 2, чтобы ускорить ее.

Версия 1, с другой стороны, обращается к столбцам элементов, а не к ряду. Этот вид доступа не соприкасается с уровнем памяти, поэтому программа не может использовать кэширование ОС как можно больше.

Oleksi 30 март 2012, в 04:04

0

При таких размерах массива, вероятно, за это отвечает менеджер кеша в ЦП, а не в ОС.
krlmlr 30 март 2012, в 08:59

12

Причина - доступ к локальным данным в кеш-памяти. Во второй программе вы сканируете линейно по памяти, что дает преимущества от кеширования и предварительной выборки. Ваша первая схема использования памяти программы намного более распространена и, следовательно, имеет худшее поведение в кэше.

Variable Length Coder 30 март 2012, в 03:55

10

Помимо других отличных ответов на кеш-хиты, существует также возможная разница в оптимизации. Ваш второй цикл, скорее всего, будет оптимизирован компилятором в нечто эквивалентное:

  for (j=0; j<4000; j++) {
    int *p = x[j];
    for (i=0; i<4000; i++) {
      *p++ = i+j;
    }
  }

Это менее вероятно для первого цикла, потому что ему нужно каждый раз увеличивать указатель "p" на 4000.

EDIT: p++ и даже *p++ = .. можно скомпилировать в одну инструкцию процессора в большинстве процессоров. *p = ..; p += 4000 не может, поэтому в оптимизации его меньше. Это также сложнее, потому что компилятор должен знать и использовать размер внутреннего массива. И это не происходит часто во внутреннем цикле в нормальном коде (это происходит только для многомерных массивов, где последний индекс поддерживается постоянным в цикле, а второй - последним), поэтому оптимизация меньше приоритета,

fishinear 30 март 2012, в 12:14

0

Я не понимаю, что «потому что нужно будет указывать« р »на 4000 каждый раз», значит.
Veedrac 06 март 2016, в 20:57
0

@Veedrac Указатель должен быть увеличен на 4000 во внутреннем цикле: p += 4000 iso p++
fishinear 07 март 2016, в 08:46
0

Зачем компилятору найти эту проблему? i уже увеличен на не-единичное значение, учитывая, что это приращение указателя.
Veedrac 07 март 2016, в 11:16
0

Я добавил больше объяснений
fishinear 07 март 2016, в 14:55
0

Попробуйте набрать int *f(int *p) { *p++ = 10; return p; } int *g(int *p) { *p = 10; p += 4000; return p; } в gcc.godbolt.org . Кажется, что два компилируются в основном одинаково.
Veedrac 07 март 2016, в 17:13
0

Выберите, например, ARM gcc 4.8.2 в качестве компилятора, и вы увидите разницу.
fishinear 07 март 2016, в 23:16

Показать ещё 4 комментария

8

Эта строка виновника:

x[j][i]=i+j;

Вторая версия использует непрерывную память, поэтому будет значительно быстрее.

Я пробовал с помощью

x[50000][50000];

а время исполнения - 13 секунд для версии 1 против 0,6 для версии 2.

Nicolas Modrzyk 30 март 2012, в 04:20

3

_{Я пытаюсь дать общий ответ.}

Потому что i[y][x] является сокращением для *(i + y*array_width + x) в C (попробуйте стильный int P[3]; 0[P] = 0xBEEF;).

Когда вы перебираете y, вы перебираете куски размером array_width * sizeof(array_element). Если у вас это в вашем внутреннем цикле, у вас будут array_width * array_height итерации по этим фрагментам.

Перевернув порядок, вы будете иметь только array_height chunk-итераций, и между любой итерацией блоков вы будете иметь array_width итераций только sizeof(array_element).

В то время как на действительно старых x86-процессорах это не имело особого значения, в настоящее время "x86" делает много предварительной выборки и кэширования данных. Вероятно, вы получаете много пропусков кеша в своем более медленном итерационном порядке.

Sebastian Mach 30 март 2012, в 17:13

Ещё вопросы

Можете ли вы добавить результаты теста?
Похожие страницы : stackoverflow.com/questions/9888154/…
@ naught101 Тесты покажут разницу в производительности от 3 до 10 раз. Это базовый C / C ++, я полностью озадачен тем, как он получил так много голосов ...
я думаю, что эта проблема связана с загрузкой страницы массива в память с помощью политики подкачки ОС
Почему я всегда пропускаю вопросы с высоким голосом?
Я думаю, что вопрос может быть не только для ц.
@ TC1: я не думаю, что это так просто; возможно промежуточный. Но не должно быть сюрпризом, что «базовые» вещи, как правило, полезны для большего числа людей, отсюда и множество возражений. Более того, это вопрос, который трудно гуглить, даже если он «базовый».
Я добавил этот тест как javascript на jsperf.com/2-dimensional-array-loops, и вы можете проверить эффект там
@LarsH Я вообще никогда не говорил, что это просто, я говорил, что это базовый C / C ++. Эти языки уже достаточно развиты. Подобные «уловки и колдовство» приходят с ними как данность, и любой, кто их использует, должен заранее ознакомиться с ними. Есть еще пара, с моей стороны, использующих постфиксные инкременты вместо префикса на итераторах STL, чтобы предотвратить создание ненужной копии, но я понимаю, вы понимаете суть. Они дают вам всю веревку, которая вам нужна, чтобы повеситься, и никаких признаков того, что вы собираетесь, большинство других языков (более высокого уровня) не позволяют вам этого делать.
@ TC1: базовый C - это то, о чем я говорил (эта проблема не относится к C ++, что является огромным скачком в сложности). Но эта же проблема может относиться и к бейсику. «Любой, кто их использует, должен заранее ознакомиться с ними», - легко может сказать знающий человек. Вы узнали об этой конкретной проблеме до того, как сделали свой первый вложенный цикл с двумерным массивом? Я знаю, я уверен, что нет! Я не думаю, что использовал такие большие массивы, но это было не потому, что я знал, чтобы держаться от них подальше из-за производительности!
Может отличаться для ядер GPU, чем для CPU.
Я вновь открываю этот вопрос, так как считаю, что это лучший «канонический дубликат», чем связанный, в основном из-за некоторых хороших ответов, размещенных здесь.
@ naught101 Результаты теста для N = 10000: первый метод в 3,68 раза медленнее, 1,092 с против 0,296 с. (Результаты одного прогона, между прогонами довольно много вариаций). Разница в скорости, вероятно, будет зависеть от относительного размера кеша вашего процессора и размера выбранного массива.
GCC 8 и новый Clang 7 (с -mllvm -enable-loopinterchange ) улучшили свои процедуры оптимизации обмена циклами и сгенерировали одинаковую сборку для обоих случаев gcc.godbolt.org/z/EB-PRg
При таких размерах массива, вероятно, за это отвечает менеджер кеша в ЦП, а не в ОС.
Я не понимаю, что «потому что нужно будет указывать« р »на 4000 каждый раз», значит.
@Veedrac Указатель должен быть увеличен на 4000 во внутреннем цикле: p += 4000 iso p++
Зачем компилятору найти эту проблему? i уже увеличен на не-единичное значение, учитывая, что это приращение указателя.
Попробуйте набрать int *f(int *p) { *p++ = 10; return p; } int *g(int *p) { *p = 10; p += 4000; return p; } в gcc.godbolt.org . Кажется, что два компилируются в основном одинаково.
Выберите, например, ARM gcc 4.8.2 в качестве компилятора, и вы увидите разницу.

Robert Martin · Accepted Answer · 2012-03-30T03-36-00.000Z

Как говорили другие, проблема заключается в сохранении в ячейке памяти в массиве: x[i][j]. Вот немного понимания, почему:

У вас есть двумерный массив, но память в компьютере по своей сути 1-мерная. Поэтому, когда вы представляете свой массив следующим образом:

0,0 | 0,1 | 0,2 | 0,3
----+-----+-----+----
1,0 | 1,1 | 1,2 | 1,3
----+-----+-----+----
2,0 | 2,1 | 2,2 | 2,3

Ваш компьютер сохраняет его в памяти как одну строку:

0,0 | 0,1 | 0,2 | 0,3 | 1,0 | 1,1 | 1,2 | 1,3 | 2,0 | 2,1 | 2,2 | 2,3

Во втором примере вы получаете доступ к массиву, сначала перебирая второй номер, т.е.:

x[0][0] 
        x[0][1]
                x[0][2]
                        x[0][3]
                                x[1][0] etc...

Это означает, что вы все в порядке. Теперь посмотрим на 1-ю версию. Вы делаете:

x[0][0]
                                x[1][0]
                                                                x[2][0]
        x[0][1]
                                        x[1][1] etc...

Из-за того, как C выложил 2-мерный массив в памяти, вы просите его прыгать повсюду. Но теперь для кикера: Почему это имеет значение? Все обращения к памяти одинаковы, правильно?

Нет: из-за кешей. Данные из вашей памяти доводятся до ЦПУ в маленьких кусках (так называемые "линии кэша" ), как правило, 64 байта. Если у вас есть 4-байтовые целые числа, это означает, что вы получаете 16 последовательных целых чисел в аккуратном небольшом пакете. На самом деле это довольно медленно, чтобы получить эти куски памяти; ваш процессор может выполнять большую работу за время, затрачиваемое на загрузку отдельной строки кэша.

Теперь оглянитесь на порядок доступа: Второй пример: (1) захват фрагмента из 16 ints, (2) изменение всех из них, (3) повтор 4000 * 4000/16 раз. Это хорошо и быстро, и у процессора всегда есть над чем работать.

Первый пример: (1) захватить фрагмент из 16 ints, (2) изменить только один из них, (3) повторить 4000 * 4000 раз. Это потребует 16-кратное количество "выборки" из памяти. Вашему процессору на самом деле придется тратить время на сидение, ожидая появления этой памяти, и пока она сидит вокруг, вы тратите драгоценное время.

Важное примечание:

Теперь, когда у вас есть ответ, вот интересная заметка: нет причин, по которым ваш второй пример должен быть быстрым. Например, в Фортране первый пример будет быстрым, а второй медленным. Это потому, что вместо того, чтобы расширять вещи в концептуальные "строки", такие как C, Fortran расширяется в "столбцы", то есть:

0,0 | 1,0 | 2,0 | 0,1 | 1,1 | 2,1 | 0,2 | 1,2 | 2,2 | 0,3 | 1,3 | 2,3

Макет C называется "row-major", а Fortran называется "column-major". Как вы можете видеть, очень важно знать, является ли ваш язык программирования значительным или крупным! Здесь ссылка для получения дополнительной информации: http://en.wikipedia.org/wiki/Row-major_order

Это довольно тщательный ответ; это то, чему меня учили при работе с промахами кеша и управлением памятью.
У вас есть «первая» и «вторая» версии в неправильном направлении; первый пример изменяет первый индекс во внутреннем цикле и будет более медленным примером выполнения.
Вы сделали тест с отключенной оптимизацией кода?
Отличный ответ. Если Марк захочет узнать больше о таких мрачных вещах, я бы порекомендовал такую книгу, как «Напиши великий код».
Имея такое небольшое формальное обучение, кусочки знаний, как это сокровища! Я буду помнить об этом, когда мне нужно будет перебрать 2d массивы!
Бонусные баллы за указание, что C изменил порядок строк с Фортрана. Для научных вычислений размер кэша L2 - это все, потому что, если все ваши массивы помещаются в L2, тогда вычисления могут быть завершены без обращения к основной памяти.
@caf Спасибо за указание на это - должно быть исправлено сейчас.
@birryree: свободно доступное, что каждый программист должен знать о памяти , также является хорошим чтением.
Отличный ответ, но я на самом деле представляю массив как 0,0 1,0 2,0 .. Почему вы говорите, 0,0 1,0 2,0?
@ KorayTugay Нет логики для этого, так или иначе: либо так же хорошо. C просто произвольно выбрал мажор строки (т. Е. 0,0, 0,1, 0,2 и т. Д.), И это означает, что вы застряли с ним, если вы используете язык со строкой мажора .... который почти каждый язык Эти дни!
@RobertMartin Это не произвольный выбор для C. В C многомерных массивов не существует. Вместо этого это массив массивов, что делает его автоматически мажорным.
@RobertMartin, вы обсуждаете родные языки, такие как C, C ++, можно ли это повторить на других языках, таких как Java, JavaScript, JVM или компилятор / оптимизатор Java обрабатывают для нас такие проблемы?