функция перераспределения растущей памяти в cuda

Question

функция перераспределения растущей памяти в cuda

0

Я ищу функцию для перераспределения массива CUDA (device-), если данные перерастут контейнер. фон - это редкие данные, которые я храню в массивах, которые я начинаю с 0 и медленно начинаю заполнять.

Я начинаю выделять заданное число для запуска:

в main():

int number_of_blocks = 30;
int dyn_cells = number_of_blocks * (BLOCK_WIDTH-4) * (BLOCK_HEIGHT-4);
HANDLE_ERROR(cudaMalloc(&h_dev, dyn_cells * sizeof(float)));

Затем я делаю некоторые вычисления, и все больше блоков в h_dev израсходованы. Если используется более половины из них, я хочу сделать массив больше. Я использую эту функцию для этого:

void grow_array(float **ptr, int length, int length_new)
{
    float *ptr_new;
    int width = length_new * (BLOCK_WIDTH - 4);
    int height= (BLOCK_HEIGHT- 4);
    HANDLE_ERROR(cudaMalloc(&ptr_new    , width * height * sizeof(float)));
    //this is the copy kernel
    dim3 threads(BLOCK_WIDTH-4,BLOCK_HEIGHT-4);
    dim3 blocks(length_new);
    copy_kernel<<<blocks,threads>>>(*ptr,ptr_new, length, length_new);

    float *old_ptr;
    old_ptr = *ptr;
    HANDLE_ERROR( cudaFree( old_ptr ) );
    *ptr = ptr_new;
}

Кого я называю так:

void memory_manager(int &blocks_available, int blocks_used, float** h_dev)
{
    double ratio = (double)blocks_used/(double)blocks_available;
    if (ratio > 0.5)
    {
        int new_length = 1.5 * blocks_available;
        grow_array(h_dev , blocks_available, new_length);
        (...)
    {
{

ядро copy выглядит следующим образом:

__global__ void copy_kernel(float* old_vector, float* new_vector, int old_size, int new_size)
{
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = threadIdx.y;
    int offset_new = x + y * new_size * (BLOCK_WIDTH-4);
    int offset_old = x + y * old_size * (BLOCK_WIDTH-4);
    if (blockIdx.x < old_size)
    {
        new_vector[offset_new] = old_vector[offset_old];
    }
    else
    {
        new_vector[offset_new] = 42.0f;
    }
}

Я изначально написал это после прототипа, который использовал malloc и бесплатный (не CUDA), который, казалось, работал. Однако это приводит к сбою моей программы, с намеком на доступ к памяти вне пределов. Я почти уверен, что мне не хватает какой-либо справочной/де-справочной информации, но не могу найти, где именно проблема. любые указания на то, почему это не удается?

Ben the bear 16 фев. 2014, в 17:43

Источник

2

Вам, вероятно, нужно показать весь соответствующий код. Например, запуск 1-D сетки из 2-D потоковых блоков кажется странным. Вы, конечно, можете это сделать, но это вызывает вопросы о том, как вы вычисляете индексирование в вашем copy_kernel которое вы не показали. Если вы ссылаетесь на адрес устройства за пределами допустимого диапазона, было бы хорошо показать код устройства. Можете ли вы быть более откровенным по поводу "сделать мой сбой программы"? Означает ли это ошибку сегмента или что-то еще? Вы пробовали cuda-memcheck ? Пожалуйста, покажите полное приложение, которое кто-то другой может скомпилировать и запустить. Да, это требует усилий.
Robert Crovella 16 фев. 2014, в 17:22
0

Вот моя попытка построить код вокруг того, что вы показали ( grow_array и memory_manager ). Кажется, работает правильно. Если вам нужна помощь, приведите полный пример, как я это сделал. Голосование, чтобы закрыть.
Robert Crovella 16 фев. 2014, в 18:31
0

Уважаемый мистер Кровелла, спасибо, что нашли время для комментариев. Я включил рассматриваемое экземплярное ядро. Я не добавил его изначально, поскольку в другом ядре возникла ошибка out-off-bound, которая отлично работает, если я работаю с «статическим» объемом памяти. Это привело меня к мысли, что в части кода, управляющей памятью, может быть очевидная ошибка.
Ben the bear 16 фев. 2014, в 18:33
0

Когда я copy_kernel ваше copy_kernel в мой рабочий код, он выдает ошибку по смещению 4096. Держу пари, что если вы попытаетесь создать упрощенный пример, как я это сделал, вы обнаружите проблему довольно быстро. Конечно, ваше copy_kernel подозрительно для меня, но я еще не разобрался с вашей индексацией.
Robert Crovella 16 фев. 2014, в 18:34
0

Я постараюсь упростить, так как вы предлагаете также запустить пример. О индексации: это как 1d массив, где каждый элемент является блоком данных ядра. Таким образом, высота равна block_height (-4 из-за элементов ореола). Ширина - это количество блоков *, умноженное на block_width (снова -4).
Ben the bear 16 фев. 2014, в 18:43
0

На самом деле, я думаю, что в коде, который вы показали, все еще нет ничего плохого, включая копирование ядра. Наша индексация отличается, но это просто отражает другую интерпретацию / упорядоченность данных (что стало ясно только после того, как вы показали ядро копии). Ваш заказ действителен. Проблема заключается в том, что вы не показали.
Robert Crovella 16 фев. 2014, в 18:48
0

@Crovella Вы были правы, конечно, проблема была в другой части кода, которую я не адаптировал должным образом к новому управлению памятью. Я все еще рад, что вы посмотрели мой код, хотя я бы потратил гораздо больше времени на поиск неправильных мест. Было бы целесообразно как-то закрыть это, или я должен «ответить» на свой вопрос?
Ben the bear 17 фев. 2014, в 20:53
0

Вы можете ответить на свой вопрос. Я буду приветствовать ответ.
Robert Crovella 17 фев. 2014, в 22:25

Показать ещё 6 комментариев

Теги:

c++

arrays

c

cuda

1 ответ

Ещё вопросы

Вам, вероятно, нужно показать весь соответствующий код. Например, запуск 1-D сетки из 2-D потоковых блоков кажется странным. Вы, конечно, можете это сделать, но это вызывает вопросы о том, как вы вычисляете индексирование в вашем copy_kernel которое вы не показали. Если вы ссылаетесь на адрес устройства за пределами допустимого диапазона, было бы хорошо показать код устройства. Можете ли вы быть более откровенным по поводу "сделать мой сбой программы"? Означает ли это ошибку сегмента или что-то еще? Вы пробовали cuda-memcheck ? Пожалуйста, покажите полное приложение, которое кто-то другой может скомпилировать и запустить. Да, это требует усилий.
Вот моя попытка построить код вокруг того, что вы показали ( grow_array и memory_manager ). Кажется, работает правильно. Если вам нужна помощь, приведите полный пример, как я это сделал. Голосование, чтобы закрыть.
Уважаемый мистер Кровелла, спасибо, что нашли время для комментариев. Я включил рассматриваемое экземплярное ядро. Я не добавил его изначально, поскольку в другом ядре возникла ошибка out-off-bound, которая отлично работает, если я работаю с «статическим» объемом памяти. Это привело меня к мысли, что в части кода, управляющей памятью, может быть очевидная ошибка.
Когда я copy_kernel ваше copy_kernel в мой рабочий код, он выдает ошибку по смещению 4096. Держу пари, что если вы попытаетесь создать упрощенный пример, как я это сделал, вы обнаружите проблему довольно быстро. Конечно, ваше copy_kernel подозрительно для меня, но я еще не разобрался с вашей индексацией.
Я постараюсь упростить, так как вы предлагаете также запустить пример. О индексации: это как 1d массив, где каждый элемент является блоком данных ядра. Таким образом, высота равна block_height (-4 из-за элементов ореола). Ширина - это количество блоков *, умноженное на block_width (снова -4).
На самом деле, я думаю, что в коде, который вы показали, все еще нет ничего плохого, включая копирование ядра. Наша индексация отличается, но это просто отражает другую интерпретацию / упорядоченность данных (что стало ясно только после того, как вы показали ядро копии). Ваш заказ действителен. Проблема заключается в том, что вы не показали.
@Crovella Вы были правы, конечно, проблема была в другой части кода, которую я не адаптировал должным образом к новому управлению памятью. Я все еще рад, что вы посмотрели мой код, хотя я бы потратил гораздо больше времени на поиск неправильных мест. Было бы целесообразно как-то закрыть это, или я должен «ответить» на свой вопрос?
Вы можете ответить на свой вопрос. Я буду приветствовать ответ.

Ben the bear · Accepted Answer · 2014-02-17T20-46-00.000Z

код, заменяющий указатели новыми, большими указателями, по-видимому, не был причиной ошибки за пределами границ, хотя это и вызвало это. Обнаружена ошибка в неродственном ядре и зафиксирована. Спасибо всем.