Эффективный доступ к 3D-массиву, хранящемуся как 1D-массив

Question

Эффективный доступ к 3D-массиву, хранящемуся как 1D-массив

0

У меня есть трехмерный массив, который хранится в виде массива 1D по порядку. Например,

for( int k = 0; k < nk; k++ ) // Loop through the height.
    for( int j = 0; j < nj; j++ ) // Loop through the rows.
        for( int i = 0; i < ni; i++ ) // Loop through the columns.
        {
            ijk = i + ni * j + ni * nj * k;
            my3Darray[ ijk ] = 1.0;
        }

Для моего приложения мне нужно получить доступ ко всем строкам/столбцам/высоте my3Darray. По высоте я имею в виду векторы в третьем измерении массива. Мне нужно это, потому что я хочу обработать БПФ каждого вектора и вернуть полученный вектор. Я был бы благодарен за то, что мои друзья подумали о stackoverflow, как я могу эффективно обращаться к этим векторам. Конечно, одна тривиальная возможность, например, для векторов высоты:

for( int i = 0; i < ni; i++ ) // Loop through the columns.
    for( int j = 0; j < nj; j++ ) // Loop through the rows.
    {
        for( int k = 0; k < nk; k++ ) // Loop through the heights.
        {
            ijk = i + ni * j + ni * nj * k;
            myvec[ k ] = my3Darray[ ijk ];
            fft( myvec, myvec_processed );
        }

        // Store the results in a new array, which is storing myvec_processed in my3Darray_fft_values.
        for( int k = 0; k < nk; k++ ) // Loop through the heights.
        {
            ijk = i + ni * j + ni * nj * k;
            my3Darray_fft_values[ ijk ] = myvec_processed[ k ];
        }
    }

Я эффективно это вычисляю? Есть ли возможность передать my3Darray непосредственно функции, которая обрабатывает БПФ векторов (вместо копирования вектора на myvec)?

AFP 27 нояб. 2014, в 03:38

Источник

1

Разве вы не можете сделать k самой внутренней переменной, чтобы не переходить ni * nj шаг ni * nj а на 1, чтобы сделать ее более удобной для кэширования. Больше ничего не поделаешь.
luk32 27 нояб. 2014, в 01:49
0

Мне нужно рассчитать БПФ для всех векторов: по строкам, по столбцам, а также по высоте.
AFP 27 нояб. 2014, в 01:51
1

Вы сказали по высоте ... что заставляет вас думать, что это медленно, а главное, что его можно улучшить. Вы показали наименее дружественный кеш пример (также по высоте кстати). Опять же, IMO, вы можете сделать гораздо больше, чем повысить удобство кэширования кода, который вы показываете. Что ж, будем надеяться, что я ошибаюсь. На самом деле я бы попробовал скопировать весь массив, чтобы переиндексировать его. Возможно, две итерации с скачками на 1 будут быстрее, чем одна с большими скачками, но это зависит от того, насколько интеллектуален предсказатель кэша ЦП.
luk32 27 нояб. 2014, в 01:55
1

Вы можете заменить сложную строку умножения на ijk += stride; если вы вычислите stride и инициализируете ijk вне цикла. Но, к сожалению, вы все равно столкнетесь с проблемами кеша, если у вас нет последовательного доступа.
JS1 27 нояб. 2014, в 02:11

Показать ещё 2 комментария

Теги:

c++

arrays

multidimensional-array

c

fft

2 ответа

Ещё вопросы

Разве вы не можете сделать k самой внутренней переменной, чтобы не переходить ni * nj шаг ni * nj а на 1, чтобы сделать ее более удобной для кэширования. Больше ничего не поделаешь.
Мне нужно рассчитать БПФ для всех векторов: по строкам, по столбцам, а также по высоте.
Вы сказали по высоте ... что заставляет вас думать, что это медленно, а главное, что его можно улучшить. Вы показали наименее дружественный кеш пример (также по высоте кстати). Опять же, IMO, вы можете сделать гораздо больше, чем повысить удобство кэширования кода, который вы показываете. Что ж, будем надеяться, что я ошибаюсь. На самом деле я бы попробовал скопировать весь массив, чтобы переиндексировать его. Возможно, две итерации с скачками на 1 будут быстрее, чем одна с большими скачками, но это зависит от того, насколько интеллектуален предсказатель кэша ЦП.
Вы можете заменить сложную строку умножения на ijk += stride; если вы вычислите stride и инициализируете ijk вне цикла. Но, к сожалению, вы все равно столкнетесь с проблемами кеша, если у вас нет последовательного доступа.

JS1 · Answer 1 · 2014-11-27T00-47-00.000Z

Вы можете сократить умножения, предварительно вычислив такой шаг:

...
for( int j = 0; j < nj; j++ ) // Loop through the rows.
{
    int stride = ni * nj;
    ijk = i + ni * j;
    for( int k = 0; k < nk; k++ ) // Loop through the heights.
    {
        myvec[ k ] = my3Darray[ ijk ];
        fft( myvec, myvec_processed );
        ijk += stride;
    }
}

Но это лишь немного ускорит процесс. У вас все еще будут проблемы с кешем из-за доступа к my3Darray в несущественном виде.

Sam Varshavchik · Answer 2 · 2014-11-27T00-15-00.000Z

Когда все сводится к его внутренним битам и байтам, ваш трехмерный массив, конечно, сохраняется в одномерной памяти. Таким образом, при заданном элементе массива три измерения, компилятор производит почти такой же код для вычисления местоположения элемента массива, как вы делаете сами. Сюрприз!

Так, другими словами, это почти то же самое.

Единственное, что может работать в компиляторе, с явными 3-мерными массивами, состоит в том, что компилятор знает размеры всех внутренних измерений, и если размер самого внутреннего мерного среза оказывается чем-то удобным, как сила 2, компилятор мог бы заменить некоторые из умножений эквивалентными сдвигами влево, что было бы немного быстрее, я полагаю, а затем полномасштабную инструкцию умножения. Но я был бы удивлен, если бы это оказалось большой разницей в производительности.

Вероятнее всего, важно выбрать относительный порядок ваших измерений, так что ваши типичные шаблоны доступа для ваших преобразований будут более дружественными к кэшу кэш-памяти.