Ошибка сегментации CUDA в потоках без кода CUDA

Question

Ошибка сегментации CUDA в потоках без кода CUDA

0

У меня есть этот код:

__global__ void testCuda() {}

void wrapperLock()
{
    std::lock_guard<std::mutex> lock(mutexCudaExecution);

    // changing this value to 20000 does NOT trigger "Segmentation fault"
    usleep(5000);
    runCuda();
}

void runCuda()
{
    testCuda<<<1, 1>>>();
    cudaDeviceSynchronize();
}

Когда эти функции выполняются из примерно 20 потоков, я получаю Segmentation fault. Как написано в комментарии, изменение значения в usleep() до 20000 отлично работает.

Есть ли проблема с CUDA и потоками?
Мне кажется, что CUDA нужно немного времени, чтобы восстановиться, когда выполнение закончилось, даже когда ему нечего было делать.

Al Bundy 24 окт. 2014, в 19:24

Источник

0

Позвольте мне сказать прямо: вы запускаете несколько потоков хоста, и каждый пытается запустить ядро CUDA? Только один контекст CUDA?
Marco A. 24 окт. 2014, в 17:03
0

Да, но они НЕ выполняются одновременно из-за std :: lock_guard, который блокирует запуск другого ядра CUDA до тех пор, пока предыдущее не завершилось! Это в моих глазах так странно.
Al Bundy 24 окт. 2014, в 17:07
2

Вы связываете контекст cuda с каждым потоком перед вызовом запуска?
Marco A. 24 окт. 2014, в 17:08
0

Нет, я делаю то, что вы видите. Можете ли вы предоставить мне больше информации относительно "связывания"? Что я должен делать?
Al Bundy 24 окт. 2014, в 17:09
2

Вы можете попробовать положить cudaSetDevice(0); вызов перед вызовом ядра в runCuda . Я бы предложил привести полный пример.
Robert Crovella 24 окт. 2014, в 17:44
0

Это полный пример.
Al Bundy 24 окт. 2014, в 17:52
0

Нет, я имею в виду MCVE . Это будет включать в себя полностью скомпилированный пример, который не требует добавления ничего для компиляции и запуска.
Robert Crovella 24 окт. 2014, в 20:45
0

Я построил полный код вокруг того, что вы показали здесь. Нет проблем с 25 потоками. Если я закомментирую вызов usleep , он все еще работает. Если я закомментирую вызов cudaSetDevice , он все еще работает. Я думаю, что вы должны показать полный код.
Robert Crovella 25 окт. 2014, в 01:30
0

@Robert: Какую версию nvcc / CUDA вы используете? 6.0 не принимает параметр -std. Я должен разделить источник.
Al Bundy 26 окт. 2014, в 16:36
0

Я использую CUDA 6.5
Robert Crovella 26 окт. 2014, в 18:54

Показать ещё 8 комментариев

Теги:

c++

c

multithreading

cuda

2 ответа

3

Используя один контекст CUDA, несколько потоков хоста должны либо делегировать свою работу CUDA потоку контекст-владельца (аналогично рабочему потоку), либо связывать контекст с cuCtxSetCurrent (API-интерфейс драйвера) или cudaSetDevice, чтобы не перезаписывать контекстные ресурсы.

Marco A. 24 окт. 2014, в 15:40

0

Я не способен разобраться в этом. Было бы очень мило с вашей стороны, если бы вы могли предоставить мне пример кода, что делать в функции runCuda (), как инициализировать ее в main () ...
Al Bundy 24 окт. 2014, в 18:35
0

@AlBundy Это может вам помочь: devblogs.nvidia.com/parallelforall/…
Marco A. 24 окт. 2014, в 18:45
0

Я не очень понимаю проблему. Я блокирую потоки с помощью std :: lock_guard <std :: mutex> - это означает, что всегда есть ТОЛЬКО ОДИН поток, использующий графический процессор. И почему это работает, когда я использую функцию usleep (20000)? Что касается контекста, я понимаю, что я должен использовать его, когда несколько потоков используют графический процессор одновременно.
Al Bundy 24 окт. 2014, в 18:47
0

Вы должны поступить так, как указал Роберт и я, потому что это должно обеспечить определенное поведение. Если нет, это может привести к неопределенному поведению.
Marco A. 24 окт. 2014, в 18:50
0

Я постараюсь объяснить нетехническими словами. What I understand regarding the Context is, I have to use it when multiple threads are using the GPU concurrently. Нет, контекст имеет сродство к потоку: он «принадлежит» конкретному потоку. Если вы собираетесь выполнять вызовы этого контекста из другого потока, вам необходимо «переместить» контекст в этот другой поток. Это не имеет значения, потому что вы используете GPU одновременно , это важно, потому что вы используете GPU из разных потоков .
user703016 24 окт. 2014, в 19:46
0

Спасибо Цикада, теперь я понимаю. Без шансов! По-прежнему происходит сбой: я пытаюсь cudaSetDevice (0); в каждом потоке ДО выполнения runCuda () ... Используя thread.join (), тогда он работает нормально; .detach вылетает. Кажется, я должен потерять функцию / функциональность Thread и сериализовать задачи ...
Al Bundy 24 окт. 2014, в 20:34
0

О, вы говорите, что отсоединение происходит сбой? Тогда это, вероятно, означает, что поток переживает одну из переменных, которые он использует. Например, ссылка на локальную переменную, созданную в главном потоке (которая выходит перед отсоединенными потоками, что приводит к ошибке использования после освобождения).
user703016 25 окт. 2014, в 10:39
0

@Cicada: Это точно не причина, потому что основной поток никогда не заканчивается. Это программа WebServer, которая работает «навсегда». Как ответили ниже, это класс, который создает проблему.
Al Bundy 26 окт. 2014, в 17:08

Показать ещё 6 комментариев

Ещё вопросы

Позвольте мне сказать прямо: вы запускаете несколько потоков хоста, и каждый пытается запустить ядро CUDA? Только один контекст CUDA?
Да, но они НЕ выполняются одновременно из-за std :: lock_guard, который блокирует запуск другого ядра CUDA до тех пор, пока предыдущее не завершилось! Это в моих глазах так странно.
Вы связываете контекст cuda с каждым потоком перед вызовом запуска?
Нет, я делаю то, что вы видите. Можете ли вы предоставить мне больше информации относительно "связывания"? Что я должен делать?
Вы можете попробовать положить cudaSetDevice(0); вызов перед вызовом ядра в runCuda . Я бы предложил привести полный пример.
Нет, я имею в виду MCVE . Это будет включать в себя полностью скомпилированный пример, который не требует добавления ничего для компиляции и запуска.
Я построил полный код вокруг того, что вы показали здесь. Нет проблем с 25 потоками. Если я закомментирую вызов usleep , он все еще работает. Если я закомментирую вызов cudaSetDevice , он все еще работает. Я думаю, что вы должны показать полный код.
@Robert: Какую версию nvcc / CUDA вы используете? 6.0 не принимает параметр -std. Я должен разделить источник.
Я не способен разобраться в этом. Было бы очень мило с вашей стороны, если бы вы могли предоставить мне пример кода, что делать в функции runCuda (), как инициализировать ее в main () ...
@AlBundy Это может вам помочь: devblogs.nvidia.com/parallelforall/…
Я не очень понимаю проблему. Я блокирую потоки с помощью std :: lock_guard <std :: mutex> - это означает, что всегда есть ТОЛЬКО ОДИН поток, использующий графический процессор. И почему это работает, когда я использую функцию usleep (20000)? Что касается контекста, я понимаю, что я должен использовать его, когда несколько потоков используют графический процессор одновременно.
Вы должны поступить так, как указал Роберт и я, потому что это должно обеспечить определенное поведение. Если нет, это может привести к неопределенному поведению.
Я постараюсь объяснить нетехническими словами. What I understand regarding the Context is, I have to use it when multiple threads are using the GPU concurrently. Нет, контекст имеет сродство к потоку: он «принадлежит» конкретному потоку. Если вы собираетесь выполнять вызовы этого контекста из другого потока, вам необходимо «переместить» контекст в этот другой поток. Это не имеет значения, потому что вы используете GPU одновременно , это важно, потому что вы используете GPU из разных потоков .
Спасибо Цикада, теперь я понимаю. Без шансов! По-прежнему происходит сбой: я пытаюсь cudaSetDevice (0); в каждом потоке ДО выполнения runCuda () ... Используя thread.join (), тогда он работает нормально; .detach вылетает. Кажется, я должен потерять функцию / функциональность Thread и сериализовать задачи ...
О, вы говорите, что отсоединение происходит сбой? Тогда это, вероятно, означает, что поток переживает одну из переменных, которые он использует. Например, ссылка на локальную переменную, созданную в главном потоке (которая выходит перед отсоединенными потоками, что приводит к ошибке использования после освобождения).
@Cicada: Это точно не причина, потому что основной поток никогда не заканчивается. Это программа WebServer, которая работает «навсегда». Как ответили ниже, это класс, который создает проблему.

Al Bundy · Accepted Answer · 2014-10-26T15-14-00.000Z

ОБНОВИТЬ:

Согласно http://docs.nvidia.com/cuda/cuda-c-programming-guide/#um-gpu-exclusive проблема заключалась в одновременном доступе к унифицированной памяти, которую я использую. Мне пришлось обернуть вызовы ядра CUDA и получить доступ к Unified Memory с помощью std::lock_guard и теперь программа работает без проблем в течение 4 дней при загрузке тяжелых потоков.

Я должен вызвать в каждом потоке, как это было предложено Marco & Robert - cudaSetDevice иначе он снова cudaSetDevice.

Я не очень понимаю, почему кто-то думает, что ответ бесполезен! Я признаю, что допустил ошибку, и ответ должен помочь другим проверить свой код перед публикацией в SO. У меня есть по крайней мере cojones для администрирования собственной ошибки / ошибки.