Доступ к общей памяти в CUDA

Question

Доступ к общей памяти в CUDA

0

Я передаю в ядро 3 массива размером N = 224. Ядро вызывает другую функцию foo (threadIdx.x), а foo вызывает другую функциональную панель (i), где я идет от 1 до 224. Вторая функция должна получить доступ к массивам, переданным ядру, но код, который я сейчас скажу, что аргумент я не определен.

Я попытался сохранить копию массивов в общую память, но это не сработало ::

__global__ void dummy(double *pos_x_d, double *pos_y_d, double *hist_d){

    int i = threadIdx.x;
    hist_d[i]=pos_x_d[i]+pos_y_d[i];
    __syncthreads();

    foo(i);
    __syncthreads();

}

Код хоста выглядит так:

cudaMalloc((void **) &pos_x_d,(N*sizeof(double)));
cudaMalloc((void **) &pos_y_d,(N*sizeof(double)));
cudaMalloc((void **) &hist_d,(N*sizeof(double)));

//Copy data to GPU
cudaMemcpy((void *)pos_x_d, (void*)pos_x_h,N*sizeof(double),cudaMemcpyHostToDevice);
cudaMemcpy((void *)pos_y_d, (void*)pos_y_h,N*sizeof(double),cudaMemcpyHostToDevice);

//Launch Kernel
dummy<<<1,224>>>(pos_x_d,pos_y_d,hist_d);

Возможно ли запустить два ядра, 1-й для отправки данных в общую память. Затем, второй, чтобы выполнить вычисления? Мне также нужно зациклиться на втором ядре, поэтому я хотел сначала отправить данные в разделяемую память. Ошибка исходит из строки 89, 90, что означает, что она связана с разделяемой памятью. Полный код здесь

Krishna 14 апр. 2014, в 01:00

Источник

0

Время жизни разделяемой памяти ограничено временем жизни блока потоков ядра (AFAIK) p.
OnWhenReady 13 апр. 2014, в 22:49
0

@Dominik Selzer Это не работает, когда я использую один поток также. Я вызываю функцию f1, которая вызывает другую функцию f2. ошибка исходит от моего вызова f2, который должен получить доступ к массиву, переданному в ядро.
Krishna 13 апр. 2014, в 23:11
0

Я быстро взглянул на ваш код и увидел только два отдельных вызова ядра. Первый вызов заполняет только разделяемую память, но совместно используемая память впоследствии не используется.
OnWhenReady 13 апр. 2014, в 23:31
1

Хорошо ... я проверил снова (уже поздно :-)). Проблема в том, что, как я уже говорил, время жизни совместно используемой памяти зависит от блока и ядра. Второй вызов ядра ничего не знает о разделяемой памяти, которую вы использовали в ядре 1. Это не тот способ, которым вы используете разделяемую память. Общая память используется для неглобальной связи между потоками на блок.
OnWhenReady 13 апр. 2014, в 23:42
0

@Dominik Selzer Это одна из проблем, я думаю, потому что я также попробовал это с одним вызовом ядра, и это дало мне те же ошибки.
Krishna 13 апр. 2014, в 23:50
0

Если ошибка была той же (неопределенный символ), это потому, что вы не предоставили информацию для доступа к памяти (адреса массивов).
OnWhenReady 13 апр. 2014, в 23:52
0

@Dominik Selzer Хммм ... это может быть проблемой. Я подумал, что поскольку перекрытие и metropolis_step являются функциями устройства, они будут иметь доступ к массиву в общей памяти. Если это не так, есть ли способ идти вперед? Обе функции перекрываются, метрополия нуждается в таком доступе ... К сожалению, я не могу отправить массив в качестве аргумента для этих функций.
Krishna 14 апр. 2014, в 00:04

Показать ещё 5 комментариев

Теги:

c++

c

cuda

gpgpu

1 ответ

Ещё вопросы

Время жизни разделяемой памяти ограничено временем жизни блока потоков ядра (AFAIK) p.
@Dominik Selzer Это не работает, когда я использую один поток также. Я вызываю функцию f1, которая вызывает другую функцию f2. ошибка исходит от моего вызова f2, который должен получить доступ к массиву, переданному в ядро.
Я быстро взглянул на ваш код и увидел только два отдельных вызова ядра. Первый вызов заполняет только разделяемую память, но совместно используемая память впоследствии не используется.
Хорошо ... я проверил снова (уже поздно :-)). Проблема в том, что, как я уже говорил, время жизни совместно используемой памяти зависит от блока и ядра. Второй вызов ядра ничего не знает о разделяемой памяти, которую вы использовали в ядре 1. Это не тот способ, которым вы используете разделяемую память. Общая память используется для неглобальной связи между потоками на блок.
@Dominik Selzer Это одна из проблем, я думаю, потому что я также попробовал это с одним вызовом ядра, и это дало мне те же ошибки.
Если ошибка была той же (неопределенный символ), это потому, что вы не предоставили информацию для доступа к памяти (адреса массивов).
@Dominik Selzer Хммм ... это может быть проблемой. Я подумал, что поскольку перекрытие и metropolis_step являются функциями устройства, они будут иметь доступ к массиву в общей памяти. Если это не так, есть ли способ идти вперед? Обе функции перекрываются, метрополия нуждается в таком доступе ... К сожалению, я не могу отправить массив в качестве аргумента для этих функций.

Robert Crovella · Answer 1 · 2014-04-13T22-20-00.000Z

Возможно ли запустить два ядра, 1-й для отправки данных в общую память. Затем, второй, чтобы выполнить вычисления?

Нет, это невозможно. Время существования общей памяти - это блок потока, связанный с этой общей памятью. Блок threadblock не может надежно использовать значения, хранящиеся в другом блоке потоков (будь то из того же самого или другого запуска ядра) в общей памяти.

Единственный способ сохранить данные с одного запуска ядра на следующий - через глобальную память (или память хоста).

Это имеет смысл. Должно ли использование cudaMemcpyToSymbol решить мою проблему получения ошибок типа "переменная хоста" pos_x_h "не может быть непосредственно прочитана в функции устройства"? Я определил вызывающую функцию как host____device для безопасности, но это ничего не меняет.
Нет, я не думаю, что это что-то исправит. Я посмотрел на ваш код, в нем, похоже, есть множество ошибок, но я не вижу, где эта конкретная проблема возникнет.
Я думаю, что я точно определил большинство моих ошибок. Я объявил свою ошибку позиции, сделав устройство глобальным, и оно, кажется, позаботилось обо всем (скрестив пальцы). Я просто отредактировал код, чтобы отразить это. Ошибки, которые я получаю прямо сейчас, являются ошибками присваивания. Бьюсь об заклад, я снова запутался с указателями.
Операции cudaMemcpy после того, как ядра выглядели запутанными для меня.
да, я видел это, и я удалил этот раздел после ядра. Ошибки, которые я получаю сейчас, происходят из-за того, что я пытался присвоить / отредактировать значения в глобальной памяти (которая является указателем). Если эта часть работает, то я думаю, что у меня есть хороший шанс заставить эту вещь работать ...