Почему моя программа работает медленно, когда зацикливается ровно на 8192 элемента?

Question

Почему моя программа работает медленно, когда зацикливается ровно на 8192 элемента?

678

Вот выдержка из рассматриваемой программы. Матрица img[][] имеет размер SIZE × SIZE и инициализируется по адресу:

img[j][i] = 2 * j + i

Затем вы создаете матрицу res[][], и каждое поле здесь составляет среднее из 9 полей вокруг него в матрице img. Для простоты граница оставлена на 0.

for(i=1;i<SIZE-1;i++) 
    for(j=1;j<SIZE-1;j++) {
        res[j][i]=0;
        for(k=-1;k<2;k++) 
            for(l=-1;l<2;l++) 
                res[j][i] += img[j+l][i+k];
        res[j][i] /= 9;
}

Что там все в программе. Для полноты, вот что было раньше. После этого код не появляется. Как вы можете видеть, это просто инициализация.

#define SIZE 8192
float img[SIZE][SIZE]; // input image
float res[SIZE][SIZE]; //result of mean filter
int i,j,k,l;
for(i=0;i<SIZE;i++) 
    for(j=0;j<SIZE;j++) 
        img[j][i] = (2*j+i)%8196;

В основном, эта программа медленна, когда SIZE кратно 2048, например. время выполнения:

SIZE = 8191: 3.44 secs
SIZE = 8192: 7.20 secs
SIZE = 8193: 3.18 secs

Компилятор - это GCC. Из того, что я знаю, это из-за управления памятью, но я действительно не знаю слишком много об этом предмете, поэтому я спрашиваю здесь.

Также, как исправить это было бы хорошо, но если бы кто-то мог объяснить эти времена выполнения, я уже был бы достаточно счастлив.

Я уже знаю malloc/free, но проблема заключается не в количестве используемой памяти, а просто в времени выполнения, поэтому я не знаю, как это могло бы помочь.

Mysticial 04 сен. 2012, в 12:59

Источник

0

Вы уверены, что проблема вызвана кодом, который вы разместили? Где еще i и j использовали?
Dan Puzey 04 сен. 2012, в 13:57
0

Я не понимаю, как можно получить более быстрые результаты с 8193 вместо 8192. Вы пробовали это несколько раз?
bokan 04 сен. 2012, в 14:01
62

@bokan это происходит, когда размер кратен критическому шагу кеша.
Luchian Grigore 04 сен. 2012, в 14:03
1

Этот код не может быть правильным. Он выделяет 1 ГБ в стеке.
user597225 04 сен. 2012, в 14:07
5

@ Мистик, это не имеет значения, это та же самая проблема; Код может быть разным, но в основном оба вопроса задаются примерно в одно и то же время (и их названия однозначно совпадают).
Griwes 04 сен. 2012, в 14:09
30

Вы не должны обрабатывать изображение, используя двухмерный массив, если вы хотите высокую производительность. Рассмотрим все пиксели в необработанном виде и обработайте их как одномерный массив. Сделайте это размытие в два прохода. Сначала добавьте значение окружающих пикселей, используя скользящую сумму в 3 пикселя: slideSum + = src [i + 1] -src [i-1]; Dest [I] = slideSum ;. Затем сделайте то же самое по вертикали и разделите одновременно: dest [i] = (src [i-width] + src [i] + src [i + width]) / 9. www-personal.engin.umd.umich.edu/~jwvm/ece581/18_RankedF.pdf
bokan 04 сен. 2012, в 14:25
8

Здесь на самом деле происходит две вещи. Это не просто супер-выравнивание.
Mysticial 04 сен. 2012, в 14:26
1

@ Adam12 А как это проблема? Время от времени у меня в стеке было больше 1 ГБ. На современной машине (32 бита или более) это не должно быть проблемой.
James Kanze 04 сен. 2012, в 15:24
1

@ Bokan Я получаю 403, пытаясь получить доступ к этому PDF.
Andrew Marshall 04 сен. 2012, в 19:36
0

@ Adam12: поскольку фрагмент кода не является полным, компилируемым примером ( main функции нет), я бы предположил, что данные являются глобальными, а не в стеке, без дополнительной информации (и это 500 МБ, а не 1 ГБ, хотя это все еще немного больше, чем размер стека по умолчанию на большинстве систем).
Adam Rosenfield 04 сен. 2012, в 22:21
0

@bokan: Хотя это в целом верно, особенно для динамически размещаемых массивов, в этом случае это не будет иметь никакого значения. Двухмерный массив N,M размещается в памяти так же, как одномерный массив из N*M элементов, так что вы пишете a[i][j] или a[i*stride+j] . Динамически размещаемые массивы могут иметь только одно измерение, которое будет динамическим, поэтому, если вы не знаете ширину и высоту до времени выполнения, гораздо лучше использовать плоский одномерный массив вместо массива указателей на массивы.
Adam Rosenfield 04 сен. 2012, в 22:25
0

@AdamRosenfield 1D массив - это оптимизация, которую я предлагаю во втором ответе (который не является прямым ответом на вопрос).
bokan 04 сен. 2012, в 22:46
4

(Просто незначительный зазор в вашем ответе. Для первого сегмента кода было бы неплохо, если бы все ваши циклы for имели фигурные скобки.)
Trevor Boyd Smith 05 сен. 2012, в 16:35
0

@bokan, скользящая сумма применима как к 1D, так и к 2D массивам. Я не думаю, что есть какое-то заметное ускорение до 1D по сравнению с 2D доступом, если только столбец и строка не перевернуты, как в этом примере.
Mark Ransom 06 сен. 2012, в 02:55
0

@MarkRansom Просто проверьте второй ответ на этот вопрос. Скользящая сумма интересна, если вы в среднем более 3-х значений. С 3 value он использует 2 add, так что никаких преимуществ.
bokan 06 сен. 2012, в 02:59

Показать ещё 13 комментариев

Теги:

c++

performance

gcc

memory-management

3 ответа

54

Следующие тесты были выполнены с помощью компилятора Visual С++, так как он используется установкой Qt Creator по умолчанию (думаю, без флага оптимизации). При использовании GCC нет большой разницы между мистической версией и моим "оптимизированным" кодом. Таким образом, вывод заключается в том, что оптимизация компилятора лучше заботится о микро оптимизации, чем люди (я наконец). Я оставляю остальную часть своего ответа для справки.

Неэффективно обрабатывать изображения таким образом. Лучше использовать одномерные массивы. Обработка всех пикселей выполняется в одном цикле. Случайный доступ к точкам можно выполнить, используя:

pointer + (x + y*width)*(sizeOfOnePixel)

В этом конкретном случае лучше вычислить и кешировать сумму трех пикселей групп по горизонтали, потому что они используются три раза каждый.

Я сделал несколько тестов, и я думаю, что это стоит того. Каждый результат составляет в среднем пять тестов.

Оригинальный код пользователя1615209:

8193: 4392 ms
8192: 9570 ms

Мистическая версия:

8193: 2393 ms
8192: 2190 ms

Два прохода с использованием массива 1D: первый проход для горизонтальных сумм, второй для вертикальной суммы и среднего. Двухпроходная адресация с тремя указателями и только приращения:

imgPointer1 = &avg1[0][0];
imgPointer2 = &avg1[0][SIZE];
imgPointer3 = &avg1[0][SIZE+SIZE];

for(i=SIZE;i<totalSize-SIZE;i++){
    resPointer[i]=(*(imgPointer1++)+*(imgPointer2++)+*(imgPointer3++))/9;
}

8193: 938 ms
8192: 974 ms

Два прохода с использованием 1D-массива и адресация следующим образом:

for(i=SIZE;i<totalSize-SIZE;i++){
    resPointer[i]=(hsumPointer[i-SIZE]+hsumPointer[i]+hsumPointer[i+SIZE])/9;
}

8193: 932 ms
8192: 925 ms

Однократное кеширование горизонтальных сумм только на одну строку вперед, поэтому они остаются в кеше:

// Horizontal sums for the first two lines
for(i=1;i<SIZE*2;i++){
    hsumPointer[i]=imgPointer[i-1]+imgPointer[i]+imgPointer[i+1];
}
// Rest of the computation
for(;i<totalSize;i++){
    // Compute horizontal sum for next line
    hsumPointer[i]=imgPointer[i-1]+imgPointer[i]+imgPointer[i+1];
    // Final result
    resPointer[i-SIZE]=(hsumPointer[i-SIZE-SIZE]+hsumPointer[i-SIZE]+hsumPointer[i])/9;
}

8193: 599 ms
8192: 652 ms

Вывод:

Невозможно использовать несколько указателей и просто увеличить (я думал, что это было бы быстрее)
Кэширование горизонтальных сумм лучше, чем вычисление их несколько раз.
Два прохода не три раза быстрее, а два раза.
Достичь в 3,6 раза быстрее, используя как один проход, так и кеширование промежуточного результата.

Я уверен, что это можно сделать намного лучше.

Примечание Пожалуйста, обратите внимание, что я написал этот ответ для решения общих проблем производительности, а не проблемы с кешем, описанной в "Мистическом отличном ответе". Сначала это был просто псевдокод. Меня попросили сделать тесты в комментариях... Вот полностью обновленная версия с тестами.

bokan 04 сен. 2012, в 17:33

9

«Я думаю, что это по крайней мере в 3 раза быстрее» - хотите подкрепить это утверждение некоторыми показателями или цитатами?
Adam Rosenfield 05 сен. 2012, в 04:27
7

@AdamRosenfield "Я думаю" = предположение! = "Это" = претензия. У меня нет метрики для этого, и я хотел бы увидеть тест. Но мой требует 7 приращений, 2 sub, 2 add и один div на пиксель. Каждый цикл использует меньше локальных переменных, чем регистр в CPU. Другие требуют 7 приращений, 6 приращений, 1 деление и от 10 до 20 муль для адресации в зависимости от оптимизации компилятора. Также каждая инструкция в цикле требует результата предыдущей инструкции, что исключает преимущества суперскалярной архитектуры Pentiums. Так должно быть быстрее.
bokan 05 сен. 2012, в 09:39
3

Ответ на оригинальный вопрос - все об эффектах памяти и кэша. Причина того, что код OP является настолько медленным, заключается в том, что его шаблон доступа к памяти идет по столбцам, а не по строкам, что имеет очень плохую привязку к кэш-памяти. Это особенно плохо в 8192, потому что тогда последовательные строки в конечном итоге используют одни и те же строки кеша в кеше с прямым отображением или в кеше с низкой ассоциативностью, поэтому вероятность пропадания кеша еще выше. Чередование циклов обеспечивает огромный прирост производительности благодаря значительному увеличению локальности кэша.
Adam Rosenfield 05 сен. 2012, в 19:42
0

Таким образом, хотя вы, возможно, сможете немного повысить производительность за счет подсчета инструкций и микрооптимизации, как у вас, большой, большой выигрыш в производительности достигается за счет одного прохода данных в строках для максимизации локальности кэша (который вы тоже сделано). Я полагаю, что 3-кратное усиление (или больше) по сравнению с исходным кодом связано с обменом циклами, но определенно не 3-кратное усиление по сравнению с ответом Mystical
Adam Rosenfield 05 сен. 2012, в 19:44
0

Также есть некоторые процессоры, которые имеют специальные инструкции для адресации массива, так что эта производительность еще больше возрастает. А с другой стороны, возможны оптимизации компилятора, так что эффект от ваших оптимизаций будет небольшим по сравнению с мистическими эффектами.
ted 05 сен. 2012, в 20:40
0

@AdamRosenfield Я сделал тесты и добавил их. Я также провел оптимизацию с использованием как горизонтального суммирования, так и одного прохода.
bokan 06 сен. 2012, в 02:11
1

Молодцы, это впечатляющие цифры. Как вы обнаружили, все дело в производительности памяти - использование нескольких указателей с приращениями не принесло никакой пользы.
Adam Rosenfield 06 сен. 2012, в 15:59
2

@AdamRosenfield Я был очень обеспокоен этим утром, потому что я не мог воспроизвести тесты. Похоже, что повышение производительности происходит только с компилятором Visual C ++. Используя gcc, есть только небольшая разница.
bokan 06 сен. 2012, в 19:50

Показать ещё 6 комментариев

0

Порядок доступа к элементу, который позаботился о нем, по-прежнему остается немного низко висящих фруктов. Накопление может быть выполнено таким образом, что при итерации вправо только 3 новые значения должны быть извлечены из памяти и накоплены. Трюк состоит в том, чтобы знать, как удалить крайний левый столбец; при добавлении нового столбца помните его значение, пока оно не выйдет из окна выборки.

Стоимость до: 9 читать, 9 сложение, 1 деление Стоимость после: 3 чтения, 3 сложения, 1 деление

Подумайте о окне выборки как поле 3x3, где вы будете отслеживать каждый столбец (1x3) отдельно. Накопите новый столбец и оставьте самый старый.

Разделение - это команда с высокой задержкой, поэтому может быть полезно скрыть задержку, но перед тем, как перейти туда, вывод компилятора должен быть проверен, если деление на константу отменено, и если разворачивание цикла (компилятором) уже делает некоторые компенсация задержки.

Но после самой резкой оптимизации правильного использования кеша это действительно незначительные вещи.

t0rakka 11 окт. 2017, в 13:57

Ещё вопросы

Вы уверены, что проблема вызвана кодом, который вы разместили? Где еще i и j использовали?
Я не понимаю, как можно получить более быстрые результаты с 8193 вместо 8192. Вы пробовали это несколько раз?
@bokan это происходит, когда размер кратен критическому шагу кеша.
Этот код не может быть правильным. Он выделяет 1 ГБ в стеке.
@ Мистик, это не имеет значения, это та же самая проблема; Код может быть разным, но в основном оба вопроса задаются примерно в одно и то же время (и их названия однозначно совпадают).
Вы не должны обрабатывать изображение, используя двухмерный массив, если вы хотите высокую производительность. Рассмотрим все пиксели в необработанном виде и обработайте их как одномерный массив. Сделайте это размытие в два прохода. Сначала добавьте значение окружающих пикселей, используя скользящую сумму в 3 пикселя: slideSum + = src [i + 1] -src [i-1]; Dest [I] = slideSum ;. Затем сделайте то же самое по вертикали и разделите одновременно: dest [i] = (src [i-width] + src [i] + src [i + width]) / 9. www-personal.engin.umd.umich.edu/~jwvm/ece581/18_RankedF.pdf
Здесь на самом деле происходит две вещи. Это не просто супер-выравнивание.
@ Adam12 А как это проблема? Время от времени у меня в стеке было больше 1 ГБ. На современной машине (32 бита или более) это не должно быть проблемой.
@ Bokan Я получаю 403, пытаясь получить доступ к этому PDF.
@ Adam12: поскольку фрагмент кода не является полным, компилируемым примером ( main функции нет), я бы предположил, что данные являются глобальными, а не в стеке, без дополнительной информации (и это 500 МБ, а не 1 ГБ, хотя это все еще немного больше, чем размер стека по умолчанию на большинстве систем).
@bokan: Хотя это в целом верно, особенно для динамически размещаемых массивов, в этом случае это не будет иметь никакого значения. Двухмерный массив N,M размещается в памяти так же, как одномерный массив из N*M элементов, так что вы пишете a[i][j] или a[i*stride+j] . Динамически размещаемые массивы могут иметь только одно измерение, которое будет динамическим, поэтому, если вы не знаете ширину и высоту до времени выполнения, гораздо лучше использовать плоский одномерный массив вместо массива указателей на массивы.
@AdamRosenfield 1D массив - это оптимизация, которую я предлагаю во втором ответе (который не является прямым ответом на вопрос).
(Просто незначительный зазор в вашем ответе. Для первого сегмента кода было бы неплохо, если бы все ваши циклы for имели фигурные скобки.)
@bokan, скользящая сумма применима как к 1D, так и к 2D массивам. Я не думаю, что есть какое-то заметное ускорение до 1D по сравнению с 2D доступом, если только столбец и строка не перевернуты, как в этом примере.
@MarkRansom Просто проверьте второй ответ на этот вопрос. Скользящая сумма интересна, если вы в среднем более 3-х значений. С 3 value он использует 2 add, так что никаких преимуществ.
«Я думаю, что это по крайней мере в 3 раза быстрее» - хотите подкрепить это утверждение некоторыми показателями или цитатами?
@AdamRosenfield "Я думаю" = предположение! = "Это" = претензия. У меня нет метрики для этого, и я хотел бы увидеть тест. Но мой требует 7 приращений, 2 sub, 2 add и один div на пиксель. Каждый цикл использует меньше локальных переменных, чем регистр в CPU. Другие требуют 7 приращений, 6 приращений, 1 деление и от 10 до 20 муль для адресации в зависимости от оптимизации компилятора. Также каждая инструкция в цикле требует результата предыдущей инструкции, что исключает преимущества суперскалярной архитектуры Pentiums. Так должно быть быстрее.
Ответ на оригинальный вопрос - все об эффектах памяти и кэша. Причина того, что код OP является настолько медленным, заключается в том, что его шаблон доступа к памяти идет по столбцам, а не по строкам, что имеет очень плохую привязку к кэш-памяти. Это особенно плохо в 8192, потому что тогда последовательные строки в конечном итоге используют одни и те же строки кеша в кеше с прямым отображением или в кеше с низкой ассоциативностью, поэтому вероятность пропадания кеша еще выше. Чередование циклов обеспечивает огромный прирост производительности благодаря значительному увеличению локальности кэша.
Таким образом, хотя вы, возможно, сможете немного повысить производительность за счет подсчета инструкций и микрооптимизации, как у вас, большой, большой выигрыш в производительности достигается за счет одного прохода данных в строках для максимизации локальности кэша (который вы тоже сделано). Я полагаю, что 3-кратное усиление (или больше) по сравнению с исходным кодом связано с обменом циклами, но определенно не 3-кратное усиление по сравнению с ответом Mystical
Также есть некоторые процессоры, которые имеют специальные инструкции для адресации массива, так что эта производительность еще больше возрастает. А с другой стороны, возможны оптимизации компилятора, так что эффект от ваших оптимизаций будет небольшим по сравнению с мистическими эффектами.
@AdamRosenfield Я сделал тесты и добавил их. Я также провел оптимизацию с использованием как горизонтального суммирования, так и одного прохода.
Молодцы, это впечатляющие цифры. Как вы обнаружили, все дело в производительности памяти - использование нескольких указателей с приращениями не принесло никакой пользы.
@AdamRosenfield Я был очень обеспокоен этим утром, потому что я не мог воспроизвести тесты. Похоже, что повышение производительности происходит только с компилятором Visual C ++. Используя gcc, есть только небольшая разница.

Mysticial · Accepted Answer · 2012-09-04T16-06-00.000Z

900

Лучший ответ

Разница вызвана тем же вопросом супер-выравнивания из следующих связанных вопросов:

Почему перенос матрицы 512x512 намного медленнее, чем перенос матрицы из 513x513?
Матричное умножение: небольшая разница в размере матрицы, большая разница в таймингах

Но это только потому, что есть еще одна проблема с кодом.

Начиная с исходного цикла:

for(i=1;i<SIZE-1;i++) 
    for(j=1;j<SIZE-1;j++) {
        res[j][i]=0;
        for(k=-1;k<2;k++) 
            for(l=-1;l<2;l++) 
                res[j][i] += img[j+l][i+k];
        res[j][i] /= 9;
}

Сначала заметим, что две внутренние петли тривиальны. Их можно развернуть следующим образом:

for(i=1;i<SIZE-1;i++) {
    for(j=1;j<SIZE-1;j++) {
        res[j][i]=0;
        res[j][i] += img[j-1][i-1];
        res[j][i] += img[j  ][i-1];
        res[j][i] += img[j+1][i-1];
        res[j][i] += img[j-1][i  ];
        res[j][i] += img[j  ][i  ];
        res[j][i] += img[j+1][i  ];
        res[j][i] += img[j-1][i+1];
        res[j][i] += img[j  ][i+1];
        res[j][i] += img[j+1][i+1];
        res[j][i] /= 9;
    }
}

Таким образом, мы оставляем две внешние петли, которые нас интересуют.

Теперь мы видим, что в этом вопросе проблема одинакова: Почему порядок циклов влияет на производительность при повторении по двумерному массиву?

Вы выполняете итерацию по столбцам по столбцам, а не по строкам.

Чтобы решить эту проблему, вы должны обменивать две петли.

for(j=1;j<SIZE-1;j++) {
    for(i=1;i<SIZE-1;i++) {
        res[j][i]=0;
        res[j][i] += img[j-1][i-1];
        res[j][i] += img[j  ][i-1];
        res[j][i] += img[j+1][i-1];
        res[j][i] += img[j-1][i  ];
        res[j][i] += img[j  ][i  ];
        res[j][i] += img[j+1][i  ];
        res[j][i] += img[j-1][i+1];
        res[j][i] += img[j  ][i+1];
        res[j][i] += img[j+1][i+1];
        res[j][i] /= 9;
    }
}

Это полностью исключает весь непоследовательный доступ, так что вы больше не получаете случайные замедления на больших мощностях.

Core i7 920 @3,5 ГГц

Исходный код:

8191: 1.499 seconds
8192: 2.122 seconds
8193: 1.582 seconds

Перестроенные внешние петли:

8191: 0.376 seconds
8192: 0.357 seconds
8193: 0.351 seconds

Mysticial 04 сен. 2012, в 16:06

6

Теперь, когда я снова смотрю на код, он выглядит как операция размытия изображения. Усредняет интенсивность с соседними клетками.
Mysticial 04 сен. 2012, в 14:49
199

Также отмечу, что развертывание внутренних циклов никак не влияет на производительность. Компилятор, вероятно, делает это автоматически. Я развернул их с единственной целью - избавиться от них, чтобы было легче обнаружить проблему с внешними петлями.
Mysticial 04 сен. 2012, в 16:54
2

Даже если это правильный ответ, что-то не устраивает меня ... Разве внешний / первый индекс не должен быть «i», а внутренний - «j»? Всю эту проблему можно было бы решить, просто переключив индексы в исходной задаче, поскольку OP сначала зацикливался на «i».
Mark Canlas 04 сен. 2012, в 17:04
1

Кроме того, вместо того, чтобы развернуть цикл, вы, вероятно, должны просто закомментировать его. Несмотря на ваше замечание, похоже, что визуальное развертывание является важной частью исправления.
Mark Canlas 04 сен. 2012, в 17:05
0

@MarkCanlas Да, я согласен. i должен идти раньше, чем j . Но пока я тестировал его, мне было проще просто перетаскивать цикл for, а не изменять все индексы. Что касается раскручивания петли. Я проверил это, и это не имело никакого значения в VS2010. Но устранение этого, вероятно, заставит компилятор оптимизировать весь код.
Mysticial 04 сен. 2012, в 17:08
26

И вы можете ускорить этот код еще в три раза, кэшируя суммы по каждой строке. Но эта и другие оптимизации выходят за рамки первоначального вопроса.
Eric Postpischil 04 сен. 2012, в 18:27
2

Если второй цикл более эффективен, чем первый, я не хочу снова использовать c ++
Click Upvote 04 сен. 2012, в 19:43
32

@ClickUpvote Это на самом деле аппаратная проблема (кеширование). Это не имеет ничего общего с языком. Если вы попробуете это на любом другом языке, который компилирует или JIT в нативный код, вы, вероятно, увидите те же эффекты.
Mysticial 04 сен. 2012, в 20:02
0

@MarkCanlas: Я сомневаюсь, что фактор три, кешируя, вам нужно больше памяти, и может произойти перестановка / кэширование, поэтому я думаю, что это требует тестирования.
ted 04 сен. 2012, в 21:05
0

@ Mystic Я доволен моей JVM байт-кодом, если это означает, что мне не нужно писать некрасивый код, как этот второй цикл
Click Upvote 04 сен. 2012, в 22:40
15

@ClickUpvote: Вы, кажется, довольно заблуждаетесь. Эта «вторая петля» была просто мистической, раскручивая внутренние петли вручную. Это то, что ваш компилятор почти наверняка сделает в любом случае, и Mystical сделал это только для того, чтобы сделать проблему с внешними циклами более очевидной. Это ни в коем случае не то, что вы должны делать сами.
Lily Ballard 04 сен. 2012, в 23:44
9

Я на самом деле не заметил проблемы с внешним контуром , пока я не раскатал внутренние петли. Это не было очевидно на всех 4 уровнях вложенности. Что забавно, потому что развертывание цикла обычно делает код более нечитаемым . Но в этом случае это позволило мне увидеть проблему.
Mysticial 05 сен. 2012, в 00:07
1

Справедливости ради, @ClickUpvote может выиграть от языка более высокого уровня, чем C ++, если он оптимизирует такие проблемы для вас, например, если он был функциональным, и вы просто указали, что вы хотели сделать с матрицей, и позволить компилятору разобраться в детали того, как происходит зацикливание (и, возможно, распараллеливание). Так что причина кроется в оборудовании, но он вполне может извлечь выгоду из программного обеспечения.
Chris Moschini 05 сен. 2012, в 00:12
6

@ted: фактор три не является умозрительным; Я рассчитал это. Вы не кэшируете полную копию массива, а только суммы последних двух строк.
Eric Postpischil 05 сен. 2012, в 02:39
143

Это прекрасный пример хорошего ответа на SO: ссылки на похожие вопросы, пошаговое объяснение того, как вы к нему подошли, объяснение проблемы, объяснение, как исправить проблему, отличное форматирование и даже пример выполнения кода на твоей машине. Спасибо за ваш вклад.
MattSayar 05 сен. 2012, в 03:11
0

@EricPostpischil: Интересно, а нет ли такого размера, чтобы данные без этих двух последних строк заполняли кеш, а без кеширования все еще умещались, а с кешированием случаются промахи? (Мы больше не рассматриваем проблемы с выравниванием, а проблемы с размером кэша). Я все еще нахожу фактор трех впечатляющим, поскольку у вас также есть цикл и деление на три блока сложения, из которых вы можете удалить два для двух дополнительных дополнений. Если я не ошибаюсь, вам по-прежнему нужно 5 добавлений из 9 (3 для строки без кэширования + 2 добавления из кэша), + дополнительная запись в строки кэширования.
ted 05 сен. 2012, в 05:41
0

@EricPostpischil: кроме того, как вы индексируете кэшированные строки? Вы не можете делать previousRow[i] и RowBeforePreviousRow[i] так как для этого потребуется переместить содержимое previousRow[i] в rowBeforePreviousRow[i] , по модулю индексации? Мне было бы очень интересно увидеть модифицированный код, если вы могли бы опубликовать его, пожалуйста.
ted 05 сен. 2012, в 05:45
0

@ted Проверьте мой ответ рядом. Это касается не вопроса кеша, а производительности.
bokan 05 сен. 2012, в 12:29
2

@EricPostpischil, этого метода, примененного в двух измерениях в очень узкой области, было достаточно, чтобы получить первый из моих двух патентов: 4811414 . Это было в те времена, когда 25 МГц был быстрым процессором.
Mark Ransom 06 сен. 2012, в 02:34
4

Я реализовал аналогичный тест на Java, и время также заметно увеличилось: 1,3 с. при итерации по столбцам 0,3 с. при итерации по строкам. Размер задачи составлял 4096 элементов, компьютер был 2 года ноутбуком.
Mister Smith 06 сен. 2012, в 08:29

Показать ещё 18 комментариев