Numba и guvectorize для цели CUDA: код работает медленнее, чем ожидалось

Question

Numba и guvectorize для цели CUDA: код работает медленнее, чем ожидалось

1

Известные детали

Большие наборы данных (10 миллионов x 5), (200 x 10 миллионов x 5)
Нравится
Принимает больше времени после каждого прогона
Использование Spyder3
Windows 10

Во-первых, вы пытаетесь использовать guvectorize со следующей функцией. Я передаю кучу массивов numpy и пытаюсь использовать их для умножения на два массива. Это работает, если выполняется с целью, отличной от cuda. Однако при переключении на cuda это приводит к неизвестной ошибке:

Файл "C:\ProgramData\Anaconda3\lib\site-packages\numba\cuda\decorators.py",> строка 82, в jitwrapper debug = debug)

TypeError: init() получил неожиданный аргумент ключевого слова 'debug'

После всего, что я смог найти из этой ошибки, я ударил только тупики. Я предполагаю, что это действительно простое исправление, которое я полностью пропущу, но хорошо. Следует также сказать, что эта ошибка возникает только после ее запуска один раз и сбой из-за перегрузки памяти.

os.environ["NUMBA_ENABLE_CUDASIM"] = "1"

os.environ["CUDA_VISIBLE_DEVICES"] = "10DE 1B06 63933842"
...

Все массивы numpy

@guvectorize(['void(int64, float64[:,:], float64[:,:], float64[:,:,:], 
int64, int64, float64[:,:,:])'], '(),(m,o),(m,o),(n,m,o),(),() -> (n,m,o)', 
target='cuda', nopython=True)
def cVestDiscount (ed, orCV, vals, discount, n, rowCount, cv):
    for as_of_date in range(0,ed):
        for ID in range(0,rowCount):
            for num in range(0,n):
                cv[as_of_date][ID][num] = orCV[ID][num] * discount[as_of_date][ID][num]

Попытка запуска кода с помощью nvprofiler в командной строке приводит к следующей ошибке:

Предупреждение: профилирование Unified Memory Profiling не поддерживается в текущей конфигурации, поскольку на этой установке с несколькими GPU обнаружена пара устройств без поддержки одноранговой сети. Когда одноранговые сопоставления недоступны, система возвращается к использованию памяти с нулевой копией. Это может привести к тому, что ядра, которые получают доступ к единой памяти, будут работать медленнее. Более подробную информацию можно найти по адресу: http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#um-managed-memory

Я понял, что использую графические карты с поддержкой SLI (обе карты идентичны, evga gtx 1080ti и имеют одинаковый идентификатор устройства), поэтому я отключил SLI и добавил линию "CUDA_VISIBLE_DEVICES", чтобы попытаться ограничить другую карту, но am остались с теми же результатами.

Я все еще могу запустить код с помощью nvprof, но функция cuda медленна по сравнению с njit (parallel = True) и prange. Используя меньший размер данных, мы можем запустить код, но он медленнее, чем target = 'parallel' и target = 'cpu'.

Почему cuda намного медленнее, и что означают эти ошибки?

Спасибо за помощь!

EDIT: Вот рабочий пример кода:

import numpy as np
from numba import guvectorize
import time
from timeit import default_timer as timer


@guvectorize(['void(int64, float64[:,:], float64[:,:,:], int64, int64, float64[:,:,:])'], '(),(m,o),(n,m,o),(),() -> (n,m,o)', target='cuda', nopython=True)
def cVestDiscount (countRow, multBy, discount, n, countCol, cv):
    for as_of_date in range(0,countRow):
        for ID in range(0,countCol):
            for num in range(0,n):
                cv[as_of_date][ID][num] = multBy[ID][num] * discount[as_of_date][ID][num]

countRow = np.int64(100)
multBy = np.float64(np.arange(20000).reshape(4000,5))
discount = np.float64(np.arange(2000000).reshape(100,4000,5))
n = np.int64(5)
countCol = np.int64(4000)
cv = np.zeros(shape=(100,4000,5), dtype=np.float64)
func_start = timer()
cv = cVestDiscount(countRow, multBy, discount, n, countCol, cv)
timing=timer()-func_start
print("Function: discount factor cumVest duration (seconds):" + str(timing))

Я могу запустить код в cuda с помощью gtx 1080ti, однако он намного медленнее, чем запуск его параллельно или с процессором. Я просмотрел другие сообщения, относящиеся к guvectorize, но ни один из них не помог мне понять, что такое и не оптимально работать в guvectorize. Есть ли способ сделать этот код "cuda friendly" или просто делает умножение в массивах слишком простым для любой пользы, чтобы ее можно было увидеть?

Bryce Booze 27 авг. 2018, в 21:51

Источник

2

Я рекомендую предоставить минимальный воспроизводимый пример
Robert Crovella 27 авг. 2018, в 20:10
0

Вывод nvprof является предупреждением, а не ошибкой
talonmies 27 авг. 2018, в 20:17
0

Если это единственная операция, выполняемая на GPU (рабочий процесс: копирование данных в GPU-> calc-> копирование результатов), ожидается, что она будет медленнее, потому что копирование памяти занимает больше времени, чем вычисление на CPU. Простые скалярные операции, подобные этой, полностью ограничены пропускной способностью памяти.
max9111 28 авг. 2018, в 14:33

Показать ещё 1 комментарий

Теги:

python

performance

cuda

numba

nvprof

2 ответа

1

Причина, по которой gufunc Numba испускает и работает так медленно, сразу становится очевидной при профилировании (numba 0.38.1 с CUDA 8.0)

==24691== Profiling application: python slowvec.py
==24691== Profiling result:
   Start  Duration            Grid Size      Block Size     Regs*    SSMem*    DSMem*      Size  Throughput           Device   Context    Stream  Name
271.33ms  1.2800us                    -               -         -         -         -        8B  5.9605MB/s  GeForce GTX 970         1         7  [CUDA memcpy HtoD]
271.65ms  14.591us                    -               -         -         -         -  156.25KB  10.213GB/s  GeForce GTX 970         1         7  [CUDA memcpy HtoD]
272.09ms  2.5868ms                    -               -         -         -         -  15.259MB  5.7605GB/s  GeForce GTX 970         1         7  [CUDA memcpy HtoD]
274.98ms     992ns                    -               -         -         -         -        8B  7.6909MB/s  GeForce GTX 970         1         7  [CUDA memcpy HtoD]
275.17ms     640ns                    -               -         -         -         -        8B  11.921MB/s  GeForce GTX 970         1         7  [CUDA memcpy HtoD]
276.33ms  657.28ms              (1 1 1)        (64 1 1)        40        0B        0B         -           -  GeForce GTX 970         1         7  cudapy::__main__::__gufunc_cVestDiscount$242(Array<__int64, int=1, A, mutable, aligned>, Array<double, int=3, A, mutable, aligned>, Array<double, int=4, A, mutable, aligned>, Array<__int64, int=1, A, mutable, aligned>, Array<__int64, int=1, A, mutable, aligned>, Array<double, int=4, A, mutable, aligned>) [38]
933.62ms  3.5128ms                    -               -         -         -         -  15.259MB  4.2419GB/s  GeForce GTX 970         1         7  [CUDA memcpy DtoH]

Regs: Number of registers used per CUDA thread. This number includes registers used internally by the CUDA driver and/or tools and can be more than what the compiler shows.
SSMem: Static shared memory allocated per CUDA block.
DSMem: Dynamic shared memory allocated per CUDA block.

В результате запуска ядра, который запускает код, используется один блок из 64 потоков. На графическом процессоре, который теоретически может иметь до 2048 потоков на каждый MP и 23 MP, это означает, что около 99,9% теоретической производительности вашего GPU не используется. Это выглядит смехотворным выбором дизайна разработчиками numba, и я бы сообщал об этом как об ошибке, если вам мешает это (и, похоже, это так).

Очевидным решением является переписать вашу функцию как функцию @cuda.jit в @cuda.jit ядре ядра CUDA python и явно контролировать параметры выполнения. Таким образом, вы можете хотя бы убедиться, что код будет работать с достаточным количеством потоков для потенциального использования всей емкости вашего оборудования. Это по-прежнему очень связанная с памятью операция, поэтому то, что вы можете добиться при ускорении, может быть ограничено значительно меньшим, чем отношение пропускной способности памяти вашего GPU к вашему процессору. И этого вполне может быть недостаточно, чтобы амортизировать расходы на передачу данных на хост-память устройства, поэтому в наилучшем возможном случае не может быть повышения производительности, хотя это далеко не так.

Короче говоря, остерегайтесь опасностей автоматизированного компилятора, генерируемого параллелизмом....

Постскриптум, чтобы добавить, что мне удалось выяснить, как получить PTX кода, испускаемого numba, и достаточно сказать, что он абсолютно безумный (и так долго я не могу его вообще публиковать):

{
    .reg .pred  %p<9>;
    .reg .b32   %r<8>;
    .reg .f64   %fd<4>;
    .reg .b64   %rd<137>;


    ld.param.u64    %rd29, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_5];
    ld.param.u64    %rd31, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_11];
    ld.param.u64    %rd32, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_12];
    ld.param.u64    %rd34, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_14];
    ld.param.u64    %rd35, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_15];
    ld.param.u64    %rd36, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_16];
    ld.param.u64    %rd37, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_17];
    ld.param.u64    %rd38, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_22];
    ld.param.u64    %rd39, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_23];
    ld.param.u64    %rd40, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_24];
    ld.param.u64    %rd41, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_25];
    ld.param.u64    %rd42, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_26];
    ld.param.u64    %rd43, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_27];
    ld.param.u64    %rd44, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_28];
    ld.param.u64    %rd45, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_29];
    ld.param.u64    %rd46, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_30];
    ld.param.u64    %rd48, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_36];
    ld.param.u64    %rd51, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_43];
    ld.param.u64    %rd53, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_49];
    ld.param.u64    %rd54, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_50];
    ld.param.u64    %rd55, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_51];
    ld.param.u64    %rd56, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_52];
    ld.param.u64    %rd57, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_53];
    ld.param.u64    %rd58, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_54];
    ld.param.u64    %rd59, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_55];
    ld.param.u64    %rd60, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_56];
    ld.param.u64    %rd61, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_57];
    mov.u32     %r1, %tid.x;
    mov.u32     %r3, %ctaid.x;
    mov.u32     %r2, %ntid.x;
    mad.lo.s32  %r4, %r3, %r2, %r1;
    min.s64     %rd62, %rd32, %rd29;
    min.s64     %rd63, %rd39, %rd62;
    min.s64     %rd64, %rd48, %rd63;
    min.s64     %rd65, %rd51, %rd64;
    min.s64     %rd66, %rd54, %rd65;
    cvt.s64.s32 %rd1, %r4;
    setp.le.s64 %p2, %rd66, %rd1;
    @%p2 bra    BB0_8;

    ld.param.u64    %rd126, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_42];
    ld.param.u64    %rd125, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_44];
    ld.param.u64    %rd124, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_35];
    ld.param.u64    %rd123, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_37];
    ld.param.u64    %rd122, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_4];
    ld.param.u64    %rd121, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_6];
    cvt.u32.u64 %r5, %rd1;
    setp.lt.s32 %p1, %r5, 0;
    selp.b64    %rd67, %rd29, 0, %p1;
    add.s64     %rd68, %rd67, %rd1;
    mul.lo.s64  %rd69, %rd68, %rd121;
    add.s64     %rd70, %rd69, %rd122;
    selp.b64    %rd71, %rd48, 0, %p1;
    add.s64     %rd72, %rd71, %rd1;
    mul.lo.s64  %rd73, %rd72, %rd123;
    add.s64     %rd74, %rd73, %rd124;
    ld.u64  %rd2, [%rd74];
    selp.b64    %rd75, %rd51, 0, %p1;
    add.s64     %rd76, %rd75, %rd1;
    mul.lo.s64  %rd77, %rd76, %rd125;
    add.s64     %rd78, %rd77, %rd126;
    ld.u64  %rd3, [%rd78];
    ld.u64  %rd4, [%rd70];
    setp.lt.s64 %p3, %rd4, 1;
    @%p3 bra    BB0_8;

    ld.param.u64    %rd128, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_13];
    ld.param.u64    %rd127, [_ZN6cudapy8__main__26__gufunc_cVestDiscount$242E5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi3E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIxLi1E1A7mutable7alignedE5ArrayIdLi4E1A7mutable7alignedE_param_12];
    selp.b64    %rd80, %rd127, 0, %p1;
    mov.u64     %rd79, 0;
    min.s64     %rd81, %rd128, %rd79;
    min.s64     %rd82, %rd34, %rd79;
    selp.b64    %rd83, %rd39, 0, %p1;
    min.s64     %rd84, %rd40, %rd79;
    min.s64     %rd85, %rd41, %rd79;
    min.s64     %rd86, %rd42, %rd79;
    selp.b64    %rd87, %rd54, 0, %p1;
    min.s64     %rd88, %rd55, %rd79;
    min.s64     %rd89, %rd56, %rd79;
    min.s64     %rd90, %rd57, %rd79;
    mul.lo.s64  %rd91, %rd90, %rd61;
    add.s64     %rd92, %rd53, %rd91;
    mul.lo.s64  %rd93, %rd89, %rd60;
    add.s64     %rd94, %rd92, %rd93;
    mul.lo.s64  %rd95, %rd88, %rd59;
    add.s64     %rd96, %rd94, %rd95;
    add.s64     %rd98, %rd87, %rd1;
    mul.lo.s64  %rd99, %rd58, %rd98;
    add.s64     %rd5, %rd96, %rd99;
    mul.lo.s64  %rd100, %rd86, %rd46;
    add.s64     %rd101, %rd38, %rd100;
    mul.lo.s64  %rd102, %rd85, %rd45;
    add.s64     %rd103, %rd101, %rd102;
    mul.lo.s64  %rd104, %rd84, %rd44;
    add.s64     %rd105, %rd103, %rd104;
    add.s64     %rd106, %rd83, %rd1;
    mul.lo.s64  %rd107, %rd43, %rd106;
    add.s64     %rd6, %rd105, %rd107;
    mul.lo.s64  %rd108, %rd82, %rd37;
    add.s64     %rd109, %rd31, %rd108;
    mul.lo.s64  %rd110, %rd81, %rd36;
    add.s64     %rd111, %rd109, %rd110;
    add.s64     %rd112, %rd80, %rd1;
    mul.lo.s64  %rd113, %rd35, %rd112;
    add.s64     %rd7, %rd111, %rd113;
    add.s64     %rd8, %rd2, 1;
    mov.u64     %rd131, %rd79;

BB0_3:
    mul.lo.s64  %rd115, %rd59, %rd131;
    add.s64     %rd10, %rd5, %rd115;
    mul.lo.s64  %rd116, %rd44, %rd131;
    add.s64     %rd11, %rd6, %rd116;
    setp.lt.s64 %p4, %rd3, 1;
    mov.u64     %rd130, %rd79;
    mov.u64     %rd132, %rd3;
    @%p4 bra    BB0_7;

BB0_4:
    mov.u64     %rd13, %rd132;
    mov.u64     %rd12, %rd130;
    mul.lo.s64  %rd117, %rd60, %rd12;
    add.s64     %rd136, %rd10, %rd117;
    mul.lo.s64  %rd118, %rd45, %rd12;
    add.s64     %rd135, %rd11, %rd118;
    mul.lo.s64  %rd119, %rd36, %rd12;
    add.s64     %rd134, %rd7, %rd119;
    setp.lt.s64 %p5, %rd2, 1;
    mov.u64     %rd133, %rd8;
    @%p5 bra    BB0_6;

BB0_5:
    mov.u64     %rd17, %rd133;
    ld.f64  %fd1, [%rd135];
    ld.f64  %fd2, [%rd134];
    mul.f64     %fd3, %fd2, %fd1;
    st.f64  [%rd136], %fd3;
    add.s64     %rd136, %rd136, %rd61;
    add.s64     %rd135, %rd135, %rd46;
    add.s64     %rd134, %rd134, %rd37;
    add.s64     %rd24, %rd17, -1;
    setp.gt.s64 %p6, %rd24, 1;
    mov.u64     %rd133, %rd24;
    @%p6 bra    BB0_5;

BB0_6:
    add.s64     %rd25, %rd13, -1;
    add.s64     %rd26, %rd12, 1;
    setp.gt.s64 %p7, %rd13, 1;
    mov.u64     %rd130, %rd26;
    mov.u64     %rd132, %rd25;
    @%p7 bra    BB0_4;

BB0_7:
    sub.s64     %rd120, %rd4, %rd131;
    add.s64     %rd131, %rd131, 1;
    setp.gt.s64 %p8, %rd120, 1;
    @%p8 bra    BB0_3;

BB0_8:
    ret;
}

Все эти целые операции выполняют ровно одно умножение двойной точности!

talonmies 28 авг. 2018, в 03:55

0

Спасибо за ответ, я попытался использовать подпись @ cuda.jit и у меня проблемы с потоками на блок. Что вы сделали, чтобы получить размер сетки и размер блока в первом приведенном вами примере профилирования? Еще раз спасибо за быстрый ответ.
Bryce Booze 28 авг. 2018, в 19:18
0

@BryceB, если вы запустите nvprof с опцией --print-gpu-trace, вы увидите тот же результат. Но если вы пишете свое собственное ядро @cuda.jit , вы отвечаете за установку сетки и размеров блоков.
talonmies 28 авг. 2018, в 19:24

Ещё вопросы

Я рекомендую предоставить минимальный воспроизводимый пример
Вывод nvprof является предупреждением, а не ошибкой
Если это единственная операция, выполняемая на GPU (рабочий процесс: копирование данных в GPU-> calc-> копирование результатов), ожидается, что она будет медленнее, потому что копирование памяти занимает больше времени, чем вычисление на CPU. Простые скалярные операции, подобные этой, полностью ограничены пропускной способностью памяти.
Спасибо за ответ, я попытался использовать подпись @ cuda.jit и у меня проблемы с потоками на блок. Что вы сделали, чтобы получить размер сетки и размер блока в первом приведенном вами примере профилирования? Еще раз спасибо за быстрый ответ.
@BryceB, если вы запустите nvprof с опцией --print-gpu-trace, вы увидите тот же результат. Но если вы пишете свое собственное ядро @cuda.jit , вы отвечаете за установку сетки и размеров блоков.

Robert Crovella · Accepted Answer · 2018-09-01T19-52-00.000Z

Прежде всего, основная операция, которую вы показали, состоит в том, чтобы взять две матрицы, перенести их на графический процессор, сделать некоторые элементарные умножения для создания третьего массива и передать этот 3-й массив обратно на хост.

Возможно, будет реализована реализация ядра numba/cuda guvectorize (или cuda.jit kernel), которая может работать быстрее, чем наивная последовательная реализация на основе python, но я сомневаюсь, что можно будет превысить производительность хорошо написанного кода хоста (например, используя некоторый метод распараллеливания, такой как guvectorize), чтобы сделать то же самое. Это связано с тем, что интенсивность арифметики на один байт, передаваемый между хостом и устройством, слишком низка. Эта операция слишком проста.

Во- вторых, это важно, я считаю, чтобы начать с понимания того, что Numba vectorize и guvectorize предназначены сделать. Основной принцип состоит в том, чтобы написать определение ufunc с точки зрения "что сделает работник?" а затем разрешить numba откручивать от этого несколько сотрудников. Способ, которым вы даете указание numba разворачивать нескольких сотрудников, - это передать набор данных, который больше, чем подписи, которые вы указали. Следует отметить, что numba не знает, как распараллеливать цикл for внутри определения ufunc. Он получает параллельную "силу", принимая определение ufunc и запуская его между параллельными рабочими, где каждый рабочий обрабатывает "срез" данных, но выполняет все определение ufunc на этом фрагменте. В некоторых дополнительных чтения, я покрыл часть этой земли здесь также.

Поэтому проблема, которую мы имеем в вашей реализации, заключается в том, что вы написали подпись (и ufunc), которая отображает все входные данные, установленные для одного рабочего. Как показало @talonmies, ваше основное ядро развертывается в общей сложности с 64 потоками/рабочими (что очень мало для того, чтобы быть интересным на графическом процессоре, даже если не считать вышеупомянутых утверждений об интенсивности арифметики), но я подозреваю, 64 на самом деле всего лишь минимальный размер блокировки numba, и на самом деле только 1 поток в этом поточном блоке выполняет любую полезную работу вычисления. Этот поток выполняет весь ваш ufunc, включая все for-loops, в серийном режиме.

Это, очевидно, не то, что кто-либо намерен для рационального использования vectorize или guvectorize.

Поэтому позвольте вернуться к тому, что вы пытаетесь сделать. В конечном итоге ваш ufunc хочет умножить входное значение из одного массива на входное значение из другого массива и сохранить результат в третьем массиве. Мы хотим повторить этот процесс много раз. Если бы все 3 массива были одинаковыми, мы могли бы реализовать это с помощью vectorize и даже не прибегать к более сложному guvectorize. Давайте сравним этот подход с вашим оригиналом, сосредоточив внимание на выполнении ядра CUDA. Здесь обработанный пример, где t14.py ваш исходный код, работать с профилировщиком и t15.py является vectorize версию этого, признавая, что мы изменили размер вашего multBy массива, чтобы соответствовать cv и discount:

$ nvprof --print-gpu-trace python t14.py
==4145== NVPROF is profiling process 4145, command: python t14.py
Function: discount factor cumVest duration (seconds):1.24354910851
==4145== Profiling application: python t14.py
==4145== Profiling result:
   Start  Duration            Grid Size      Block Size     Regs*    SSMem*    DSMem*      Size  Throughput  SrcMemType  DstMemType           Device   Context    Stream  Name
312.36ms  1.2160us                    -               -         -         -         -        8B  6.2742MB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
312.81ms  27.392us                    -               -         -         -         -  156.25KB  5.4400GB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
313.52ms  5.8696ms                    -               -         -         -         -  15.259MB  2.5387GB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
319.74ms  1.0880us                    -               -         -         -         -        8B  7.0123MB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
319.93ms     896ns                    -               -         -         -         -        8B  8.5149MB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
321.40ms  1.22538s              (1 1 1)        (64 1 1)        63        0B        0B         -           -           -           -  Quadro K2000 (0         1         7  cudapy::__main__::__gufunc_cVestDiscount$242(Array<__int64, int=1, A, mutable, aligned>, Array<double, int=3, A, mutable, aligned>, Array<double, int=4, A, mutable, aligned>, Array<__int64, int=1, A, mutable, aligned>, Array<__int64, int=1, A, mutable, aligned>, Array<double, int=4, A, mutable, aligned>) [37]
1.54678s  7.1816ms                    -               -         -         -         -  15.259MB  2.0749GB/s      Device    Pageable  Quadro K2000 (0         1         7  [CUDA memcpy DtoH]

Regs: Number of registers used per CUDA thread. This number includes registers used internally by the CUDA driver and/or tools and can be more than what the compiler shows.
SSMem: Static shared memory allocated per CUDA block.
DSMem: Dynamic shared memory allocated per CUDA block.
SrcMemType: The type of source memory accessed by memory operation/copy
DstMemType: The type of destination memory accessed by memory operation/copy
$ cat t15.py
import numpy as np
from numba import guvectorize,vectorize
import time
from timeit import default_timer as timer


@vectorize(['float64(float64, float64)'], target='cuda')
def cVestDiscount (a, b):
    return a * b

discount = np.float64(np.arange(2000000).reshape(100,4000,5))
multBy = np.full_like(discount, 1)
cv = np.empty_like(discount)
func_start = timer()
cv = cVestDiscount(multBy, discount)
timing=timer()-func_start
print("Function: discount factor cumVest duration (seconds):" + str(timing))
$ nvprof --print-gpu-trace python t15.py
==4167== NVPROF is profiling process 4167, command: python t15.py
Function: discount factor cumVest duration (seconds):0.37507891655
==4167== Profiling application: python t15.py
==4167== Profiling result:
   Start  Duration            Grid Size      Block Size     Regs*    SSMem*    DSMem*      Size  Throughput  SrcMemType  DstMemType           Device   Context    Stream  Name
193.92ms  6.2729ms                    -               -         -         -         -  15.259MB  2.3755GB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
201.09ms  5.7101ms                    -               -         -         -         -  15.259MB  2.6096GB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
364.92ms  842.49us          (15625 1 1)       (128 1 1)        13        0B        0B         -           -           -           -  Quadro K2000 (0         1         7  cudapy::__main__::__vectorized_cVestDiscount$242(Array<double, int=1, A, mutable, aligned>, Array<double, int=1, A, mutable, aligned>, Array<double, int=1, A, mutable, aligned>) [31]
365.77ms  7.1528ms                    -               -         -         -         -  15.259MB  2.0833GB/s      Device    Pageable  Quadro K2000 (0         1         7  [CUDA memcpy DtoH]

Regs: Number of registers used per CUDA thread. This number includes registers used internally by the CUDA driver and/or tools and can be more than what the compiler shows.
SSMem: Static shared memory allocated per CUDA block.
DSMem: Dynamic shared memory allocated per CUDA block.
SrcMemType: The type of source memory accessed by memory operation/copy
DstMemType: The type of destination memory accessed by memory operation/copy
$

Мы видим, что ваше приложение сообщило о времени выполнения около 1.244 секунд, тогда как версия векторизации сообщает о времени выполнения около 0,375 секунды. Но в обоих этих числах есть накладные расходы python. Если мы посмотрим на сгенерированную продолжительность ядра CUDA в профилировщике, разница будет еще более резкой. Мы видим, что исходное ядро занимало около 1.225 секунд, тогда как ядро векторизации выполняется примерно через 842 микросекунды (т.е. менее 1 миллисекунды). Мы также отмечаем, что время ядра вычислений намного больше, чем время, затрачиваемое на перенос 3 массивов в/из GPU (что составляет около 20 миллисекунд), и мы отмечаем, что размеры ядра теперь составляют 15625 блоков из 128 потоки каждый для общего количества потоков/работников 2000000, что точно соответствует суммарному количеству операций умножения, которые должны быть выполнены, и существенно больше, чем ничтожные 64 потока (и, возможно, действительно только 1 поток) в действии с вашим исходным кодом.

Учитывая простоту описанного выше подхода к vectorize, если вы действительно хотите это сделать, это умножение по multBy, то вы можете рассмотреть возможность репликации multBy так, чтобы он был сопоставим по размеру с двумя другими массивами и выполнялся с ним.

Но остается вопрос: как обрабатывать разнородные размеры входных массивов, как в исходной проблеме? Для этого я думаю, что нам нужно пойти на guvectorize (или, как указано в @talonmies, написать свое собственное ядро @cuda.jit, что, вероятно, лучший совет, несмотря на то, что ни один из этих подходов не сможет преодолеть накладные расходы на передачу данных в/с устройства, как уже упоминалось).

Чтобы решить эту проблему с помощью guvectorize, нам нужно более тщательно подумать о уже упомянутой концепции "срезания". Позвольте повторно написать ваше ядро guvectorize чтобы оно guvectorize только на "срезе" общих данных, а затем разрешало guvectorize запуска guvectorize нескольких работников для ее решения, один рабочий на срез.

В CUDA нам нравится иметь много рабочих; у вас действительно не может быть слишком много. Таким образом, это повлияет на то, как мы "нарезаем" наши массивы, чтобы дать возможность нескольким работникам действовать. Если бы мы срезали по 3-му (последнему, n) размеру, у нас было бы всего 5 срезов, поэтому максимум 5 работников. Точно так же, если мы countRow по первому или countRow размеру, у нас будет 100 ломтиков, поэтому максимум 100 рабочих. В идеале мы бы countCol по 2-му, или countCol размеру. Однако для простоты я буду countRow по первому или countRow размеру. Это явно неоптимально, но см. Ниже пример обработанного примера того, как вы могли бы приблизиться к проблеме нарезки на второй размер. Нарезка по первому измерению означает, что мы удалим первый цикл for из нашего ядра guvectorize и позволяем системе ufunc распараллеливаться вдоль этого измерения (в зависимости от размеров массивов, которые мы проходим). Код может выглядеть примерно так:

$ cat t16.py
import numpy as np
from numba import guvectorize
import time
from timeit import default_timer as timer


@guvectorize(['void(float64[:,:], float64[:,:], int64, int64, float64[:,:])'], '(m,o),(m,o),(),() -> (m,o)', target='cuda', nopython=True)
def cVestDiscount (multBy, discount, n, countCol, cv):
        for ID in range(0,countCol):
            for num in range(0,n):
                cv[ID][num] = multBy[ID][num] * discount[ID][num]

multBy = np.float64(np.arange(20000).reshape(4000,5))
discount = np.float64(np.arange(2000000).reshape(100,4000,5))
n = np.int64(5)
countCol = np.int64(4000)
cv = np.zeros(shape=(100,4000,5), dtype=np.float64)
func_start = timer()
cv = cVestDiscount(multBy, discount, n, countCol, cv)
timing=timer()-func_start
print("Function: discount factor cumVest duration (seconds):" + str(timing))
$ nvprof --print-gpu-trace python t16.py
==4275== NVPROF is profiling process 4275, command: python t16.py
Function: discount factor cumVest duration (seconds):0.0670170783997
==4275== Profiling application: python t16.py
==4275== Profiling result:
   Start  Duration            Grid Size      Block Size     Regs*    SSMem*    DSMem*      Size  Throughput  SrcMemType  DstMemType           Device   Context    Stream  Name
307.05ms  27.392us                    -               -         -         -         -  156.25KB  5.4400GB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
307.79ms  5.9293ms                    -               -         -         -         -  15.259MB  2.5131GB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
314.34ms  1.3440us                    -               -         -         -         -        8B  5.6766MB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
314.54ms     896ns                    -               -         -         -         -        8B  8.5149MB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
317.27ms  47.398ms              (2 1 1)        (64 1 1)        63        0B        0B         -           -           -           -  Quadro K2000 (0         1         7  cudapy::__main__::__gufunc_cVestDiscount$242(Array<double, int=3, A, mutable, aligned>, Array<double, int=3, A, mutable, aligned>, Array<__int64, int=1, A, mutable, aligned>, Array<__int64, int=1, A, mutable, aligned>, Array<double, int=3, A, mutable, aligned>) [35]
364.67ms  7.3799ms                    -               -         -         -         -  15.259MB  2.0192GB/s      Device    Pageable  Quadro K2000 (0         1         7  [CUDA memcpy DtoH]

Regs: Number of registers used per CUDA thread. This number includes registers used internally by the CUDA driver and/or tools and can be more than what the compiler shows.
SSMem: Static shared memory allocated per CUDA block.
DSMem: Dynamic shared memory allocated per CUDA block.
SrcMemType: The type of source memory accessed by memory operation/copy
DstMemType: The type of destination memory accessed by memory operation/copy
$

Замечания:

Изменения кода были связаны с удалением параметра countCol, удалением первого цикла for из ядра guvectorize и внесением соответствующих изменений в подпись функции, чтобы отразить это. Мы также изменили наши трехмерные функции в сигнатуре на двумерные. В конце концов, мы берем двумерный "срез" трехмерных данных и позволяем каждому работнику работать на срезе.
Размеры ядра, о которых сообщает профилировщик, теперь составляют 2 блока вместо 1. Это имеет смысл, потому что в оригинальной реализации действительно был представлен только один "срез", и поэтому нужен один рабочий и, следовательно, 1 поток (но numba spun up 1 threadblock из 64 потоков). В этой реализации есть 100 срезов, а numba выбрал 2 потока блоков из 64 рабочих/нитей для обеспечения 100 рабочих/потоков.
Производительность ядра, сообщенная профилировщиком 47,4 мс, теперь находится где-то между оригинальной версией (~ 1.224s) и массово-параллельной vectorize версией (в ~ 0,001 с). Таким образом, переход от 1 до 100 рабочих значительно ускорился, но есть больше возможностей для повышения производительности. Если вы countCol, как нарезать измерение countCol, вы, вероятно, можете приблизиться к версии vectorize, с точки зрения производительности (см. Ниже). Обратите внимание, что разница между тем, где мы находимся здесь (~ 47 мс) и версией векторизации (~ 1 мс), более чем достаточна, чтобы компенсировать дополнительную стоимость передачи (~ 5 мс или менее) передачи немного большей матрицы multBy в устройства, чтобы упростить простоту vectorize.

Некоторые дополнительные комментарии по времени python: я считаю, что точное поведение того, как python компилирует необходимые ядра для исходных, векторизованных и графических улучшенных версий, отличается. Если мы изменим код t15.py для запуска "разминки", то, по крайней мере, время синхронизации python будет согласованным, трендовым с общим временем стены и временем ядра:

$ cat t15.py
import numpy as np
from numba import guvectorize,vectorize
import time
from timeit import default_timer as timer


@vectorize(['float64(float64, float64)'], target='cuda')
def cVestDiscount (a, b):
    return a * b

multBy = np.float64(np.arange(20000).reshape(4000,5))
discount = np.float64(np.arange(2000000).reshape(100,4000,5))
multBy = np.full_like(discount, 1)
cv = np.empty_like(discount)
#warm-up run
cv = cVestDiscount(multBy, discount)
func_start = timer()
cv = cVestDiscount(multBy, discount)
timing=timer()-func_start
print("Function: discount factor cumVest duration (seconds):" + str(timing))
[bob@cluster2 python]$ time python t14.py
Function: discount factor cumVest duration (seconds):1.24376320839

real    0m2.522s
user    0m1.572s
sys     0m0.809s
$ time python t15.py
Function: discount factor cumVest duration (seconds):0.0228319168091

real    0m1.050s
user    0m0.473s
sys     0m0.445s
$ time python t16.py
Function: discount factor cumVest duration (seconds):0.0665760040283

real    0m1.252s
user    0m0.680s
sys     0m0.441s
$

Теперь, отвечая на вопрос в комментариях, эффективно: "Как бы я переделал проблему, чтобы отрезать по countCol 4000 (countCol или" средний ")?

Мы можем руководствоваться тем, что работало, чтобы срезать по первому измерению. Один из возможных подходов состоял бы в том, чтобы изменить форму массивов так, чтобы измерение 4000 было первым измерением, а затем удалило это, подобно тому, что мы делали в предыдущем обращении с guvectorize. Вот пример:

$ cat t17.py
import numpy as np
from numba import guvectorize
import time
from timeit import default_timer as timer


@guvectorize(['void(int64, float64[:], float64[:,:], int64, float64[:,:])'], '(),(o),(m,o),() -> (m,o)', target='cuda', nopython=True)
def cVestDiscount (countCol, multBy, discount, n, cv):
        for ID in range(0,countCol):
            for num in range(0,n):
                cv[ID][num] = multBy[num] * discount[ID][num]

countRow = np.int64(100)
multBy = np.float64(np.arange(20000).reshape(4000,5))
discount = np.float64(np.arange(2000000).reshape(4000,100,5))
n = np.int64(5)
countCol = np.int64(4000)
cv = np.zeros(shape=(4000,100,5), dtype=np.float64)
func_start = timer()
cv = cVestDiscount(countRow, multBy, discount, n, cv)
timing=timer()-func_start
print("Function: discount factor cumVest duration (seconds):" + str(timing))
[bob@cluster2 python]$ python t17.py
Function: discount factor cumVest duration (seconds):0.0266749858856
$ nvprof --print-gpu-trace python t17.py
==8544== NVPROF is profiling process 8544, command: python t17.py
Function: discount factor cumVest duration (seconds):0.0268459320068
==8544== Profiling application: python t17.py
==8544== Profiling result:
   Start  Duration            Grid Size      Block Size     Regs*    SSMem*    DSMem*      Size  Throughput  SrcMemType  DstMemType           Device   Context    Stream  Name
304.92ms  1.1840us                    -               -         -         -         -        8B  6.4437MB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
305.36ms  27.392us                    -               -         -         -         -  156.25KB  5.4400GB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
306.08ms  6.0208ms                    -               -         -         -         -  15.259MB  2.4749GB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
312.44ms  1.0880us                    -               -         -         -         -        8B  7.0123MB/s    Pageable      Device  Quadro K2000 (0         1         7  [CUDA memcpy HtoD]
313.59ms  8.9961ms             (63 1 1)        (64 1 1)        63        0B        0B         -           -           -           -  Quadro K2000 (0         1         7  cudapy::__main__::__gufunc_cVestDiscount$242(Array<__int64, int=1, A, mutable, aligned>, Array<double, int=2, A, mutable, aligned>, Array<double, int=3, A, mutable, aligned>, Array<__int64, int=1, A, mutable, aligned>, Array<double, int=3, A, mutable, aligned>) [35]
322.59ms  7.2772ms                    -               -         -         -         -  15.259MB  2.0476GB/s      Device    Pageable  Quadro K2000 (0         1         7  [CUDA memcpy DtoH]

Regs: Number of registers used per CUDA thread. This number includes registers used internally by the CUDA driver and/or tools and can be more than what the compiler shows.
SSMem: Static shared memory allocated per CUDA block.
DSMem: Dynamic shared memory allocated per CUDA block.
SrcMemType: The type of source memory accessed by memory operation/copy
DstMemType: The type of destination memory accessed by memory operation/copy
$

Мы предсказуем, что время выполнения сократилось с ~ 47 мс, когда мы нарезали до 100 рабочих до ~ 9 мс, когда мы нарезаем 4000 рабочих. Аналогично, мы наблюдаем, что numba выбирает разворот 63 блоков из 64 потоков каждый для всего 4032 потоков, для обработки 4000 работников, необходимых для этой "нарезки".

Все еще не так быстро, как ядро vectorize 1 vectorize (которое имеет гораздо больше доступных параллельных "срезов" для рабочих), но довольно быстро, чем ядро 1.2s, предложенное в исходном вопросе. И общая настенная длина кода python примерно в 2 раза выше, даже при всех накладных расходах python.

В качестве окончательного замечания, повторите выражение, сделанное мной ранее (и похоже на заявления, сделанные в комментарии и в другом ответе):

"Я сомневаюсь, что можно будет превысить производительность хорошо написанного кода хоста (например, используя какой-то метод параллелизации, например, guvectorize), чтобы сделать то же самое".

Теперь у нас есть удобные тестовые примеры на t16.py или t17.py, с которыми мы могли бы работать, чтобы проверить это. Для простоты я выберу t16.py. Мы можем "преобразовать это обратно в код ЦП", просто удалив целевое обозначение из guvectorize ufunc:

$ cat t16a.py
import numpy as np
from numba import guvectorize
import time
from timeit import default_timer as timer


@guvectorize(['void(float64[:,:], float64[:,:], int64, int64, float64[:,:])'], '(m,o),(m,o),(),() -> (m,o)')
def cVestDiscount (multBy, discount, n, countCol, cv):
        for ID in range(0,countCol):
            for num in range(0,n):
                cv[ID][num] = multBy[ID][num] * discount[ID][num]

multBy = np.float64(np.arange(20000).reshape(4000,5))
discount = np.float64(np.arange(2000000).reshape(100,4000,5))
n = np.int64(5)
countCol = np.int64(4000)
cv = np.zeros(shape=(100,4000,5), dtype=np.float64)
func_start = timer()
cv = cVestDiscount(multBy, discount, n, countCol, cv)
timing=timer()-func_start
print("Function: discount factor cumVest duration (seconds):" + str(timing))
$ time python t16a.py
Function: discount factor cumVest duration (seconds):0.00657796859741

real    0m0.528s
user    0m0.474s
sys     0m0.047s
$

Таким образом, мы видим, что эта версия только для CPU запускает функцию примерно за 6 миллисекунд, и у нее нет "накладных расходов" на GPU, таких как инициализация CUDA и копирование данных в/из GPU. Общее время стены также является нашим лучшим измерением, примерно в 0,5 с по сравнению с примерно 1,0 с для нашего лучшего случая с графическим процессором. Таким образом, эта конкретная проблема из-за ее низкой арифметической интенсивности на один байт передачи данных, вероятно, не подходит для вычислений графических процессоров.

Большое спасибо за ответ, он честно проливает много света на то, что я не знал о Нумбе. Когда я запустил векторизованный код на своем компьютере, я увидел, что размер моего блока был равен 64 по сравнению с размером вашего блока 128 (для справки я использую GTX 1080ti). Есть ли ограничение на карту, или, возможно, есть исправление путем изменения настройки Nvidia или путем добавления некоторого кода? Во-вторых, что касается guvectorize, я попытался нарезать массивы вдоль второй оси, пытаясь сократить время, используя
Размер блока 64 против 128 не должен быть серьезной проблемой производительности. Это не ограничение карты / аппаратного обеспечения (аппаратное ограничение - 1024). Я не был бы слишком обеспокоен этим. Мы можем использовать разные версии numba. Это не то, на чем я бы сосредоточился из всего этого.
float64[:] а также отбрасывая максимальный цикл for, но я получаю ValueError: arg #1: outer dimension mismatch Как вы думаете, я неправильно использую сигнатуру, сделав ее одномерным массивом и отбросив другую для цикла?
В конце концов я тоже получаю несоответствие внешнего измерения. Поэтому я подозреваю, что простая декомпозиция в соответствии с тем, что у вас есть, может не работать с guvectorize . Но есть ключ к countRow того, что сработало, когда мы удалили только внешний цикл countRow . Поэтому мой подход состоит в том, чтобы изменить форму массивов, чтобы сделать размер в 4000 внешним измерением, и удалить его с попыткой guvectorize . См. Мой отредактированный ответ для рабочего примера того, что я имею в виду ( t17.py )
Большое спасибо за помощь! Я понимаю, что cuda не лучший вариант для этого конкретного вычисления, но у меня есть такое лучшее понимание этих двух декораторов, которые определенно будут полезны в будущем.