Булево Умножение

Question

Булево Умножение

0

Я хотел бы сделать булевое умножение с помощью cuda 6, но я не могу сделать это правильно. B - булева симметричная матрица, и я должен делать B ^ n булево умножение.

Мой код C++:

for (m=0; m<dimension; m++) {
    for (n=0; n<dimension; n++) {
        for (k=0; k<dimension; k++) {
            temp=mat[m*dimension+k] && mat[k*dimension+n];
            B[m*dimension+n]= B[m*dimension+n] || temp;
        }
    }
}

Я нашел фрагмент кода, но я не могу его адаптировать для своего случая.

__global__ void gpuMM(float *A, float *B, float *C, int N)
{
    int row = blockIdx.y*blockDim.y + threadIdx.y;
    int col = blockIdx.x*blockDim.x + threadIdx.x;

    float sum = 0.f;
    for (int n = 0; n < N; ++n)
         sum += A[row*N+n]*B[n*N+col];

    C[row*N+col] = sum;
}

user3331951 21 фев. 2014, в 03:10

Источник

1

Хотя это не будет эффективный matrixMul, но это просто. Поместите самый внутренний цикл вашего кода вместо цикла в ядре. Также замените sum , row , col и N на temp , m , n и dimension .
lashgar 21 фев. 2014, в 01:20
0

То, что вы делаете, это регулярное умножение B = A * transpose(A) . `&&` эквивалентно * а || эквивалентно + . Просто используйте кублы, чтобы умножить эти две матрицы. В случае, если A логическое, сначала конвертируйте в float.
Pavan Yalamanchili 21 фев. 2014, в 04:29

Теги:

c++

c

parallel-processing

cuda

multiplication

1 ответ

Ещё вопросы

Хотя это не будет эффективный matrixMul, но это просто. Поместите самый внутренний цикл вашего кода вместо цикла в ядре. Также замените sum , row , col и N на temp , m , n и dimension .
То, что вы делаете, это регулярное умножение B = A * transpose(A) . `&&` эквивалентно * а || эквивалентно + . Просто используйте кублы, чтобы умножить эти две матрицы. В случае, если A логическое, сначала конвертируйте в float.

Z boson · Accepted Answer · 2014-02-21T06-13-00.000Z

Используя обозначение для вашего ядра для первой части кода, вы получите это.

for (row=0; row<N; row++) {
    for (col=0; col<N; col++) {
        for (n=0; n<N; n++) {
            temp=mat[row*N+n] && mat[n*N+col];
            B[row*N+col] = B[row*N+col] || temp; 
        }       
    }
}

Итак, ваше ядро должно быть примерно таким:

__global__ void gpu_booleanMM(char *mat, char *B, int N)
{
    int row = blockIdx.y*blockDim.y + threadIdx.y;
    int col = blockIdx.x*blockDim.x + threadIdx.x;

    for (int n=0; n<N; n++) {
        temp=mat[row*N+n] && mat[n*N+col];
        B[row*N+col] = B[row*N+col] || temp; 
    }   
}

Я сомневаюсь, что это очень эффективно, но что-то подобное должно, тем не менее, дать правильный результат.