Возможно ли что-то подобное в CUDA?

Question

Возможно ли что-то подобное в CUDA?

0

Скажем, у меня есть матрица со значениями 0 или 1. Это возможно в CUDA, чтобы сделать что-то вроде этого:

__global__ void kernel(float *matrix, float *count)
{
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int column = blockIdx.x * blockDim.x + threadIdx.x;

    if (row >= MATRIXSIZE || column >= MATRIXSIZE)
    {
        return;
    }

    if (matrix[MATRIXSIZE * row + column] == 1)
    {
        count[0]++;
    }
}

Поэтому я получаю в конце концов число единиц в матрице. Я знаю, это очень простой пример, но если это возможно, так и другие варианты...

starki 20 март 2014, в 18:08

Источник

0

Вы должны знать, что каждый поток будет запускать это ядро, и тогда они будут писать с одинаковым count[0] адресов count[0] , вы можете построить вектор результата, который имеет размер вашей сетки, и каждый поток имеет свое собственное местоположение в этом векторе , так что вы можете сделать любую операцию с ним без вмешательства других потоков. Затем выполните сокращение над ним.
user2076694 20 март 2014, в 16:34
0

@ user3018144: Как сделать такое сокращение?
starki 20 март 2014, в 16:40
0

Вы можете посмотреть на сокращение шаблона по метке Харриса: developer.download.nvidia.com/assets/cuda/files/reduction.pdf или я слышал, что есть другой способ выполнить быстрое сокращение с помощью функции случайного воспроизведения в CUDA. Вы также можете взглянуть на это.
user2076694 20 март 2014, в 16:48
0

да, вы должны суммировать по столбцам (или строкам) между потоками, а затем суммировать полученный вектор. Также опустите ветку, и просто используйте фактическую память для суммы. Ветви медленные даже в куда.
Steve Cox 20 март 2014, в 17:01

Показать ещё 2 комментария

Теги:

c++

c

counter

cuda

2 ответа

Ещё вопросы

Вы должны знать, что каждый поток будет запускать это ядро, и тогда они будут писать с одинаковым count[0] адресов count[0] , вы можете построить вектор результата, который имеет размер вашей сетки, и каждый поток имеет свое собственное местоположение в этом векторе , так что вы можете сделать любую операцию с ним без вмешательства других потоков. Затем выполните сокращение над ним.
@ user3018144: Как сделать такое сокращение?
Вы можете посмотреть на сокращение шаблона по метке Харриса: developer.download.nvidia.com/assets/cuda/files/reduction.pdf или я слышал, что есть другой способ выполнить быстрое сокращение с помощью функции случайного воспроизведения в CUDA. Вы также можете взглянуть на это.
да, вы должны суммировать по столбцам (или строкам) между потоками, а затем суммировать полученный вектор. Также опустите ветку, и просто используйте фактическую память для суммы. Ветви медленные даже в куда.

Roger Dahl · Answer 1 · 2014-03-21T00-45-00.000Z

Существуют высоко оптимизированные библиотеки для CUDA, которые выполняют эти типы операций, называемые сокращениями. Посмотрите на CUDA Thrust или CUB. В Thrust, вы можете использовать reduce суммировать все значения или count для подсчета количества экземпляров определенного значения.

Archeosudoerus · Answer 2 · 2014-03-20T13-52-00.000Z

Если вы действительно хотите это сделать. Вы должны использовать атомный add: atomicadd. atomicadd(count[0],1)

Но это может вызвать проблемы с производительностью.