Я хотел бы сделать булевое умножение с помощью cuda 6, но я не могу сделать это правильно. B - булева симметричная матрица, и я должен делать B ^ n булево умножение.
Мой код C++:
for (m=0; m<dimension; m++) {
for (n=0; n<dimension; n++) {
for (k=0; k<dimension; k++) {
temp=mat[m*dimension+k] && mat[k*dimension+n];
B[m*dimension+n]= B[m*dimension+n] || temp;
}
}
}
Я нашел фрагмент кода, но я не могу его адаптировать для своего случая.
__global__ void gpuMM(float *A, float *B, float *C, int N)
{
int row = blockIdx.y*blockDim.y + threadIdx.y;
int col = blockIdx.x*blockDim.x + threadIdx.x;
float sum = 0.f;
for (int n = 0; n < N; ++n)
sum += A[row*N+n]*B[n*N+col];
C[row*N+col] = sum;
}
Используя обозначение для вашего ядра для первой части кода, вы получите это.
for (row=0; row<N; row++) {
for (col=0; col<N; col++) {
for (n=0; n<N; n++) {
temp=mat[row*N+n] && mat[n*N+col];
B[row*N+col] = B[row*N+col] || temp;
}
}
}
Итак, ваше ядро должно быть примерно таким:
__global__ void gpu_booleanMM(char *mat, char *B, int N)
{
int row = blockIdx.y*blockDim.y + threadIdx.y;
int col = blockIdx.x*blockDim.x + threadIdx.x;
for (int n=0; n<N; n++) {
temp=mat[row*N+n] && mat[n*N+col];
B[row*N+col] = B[row*N+col] || temp;
}
}
Я сомневаюсь, что это очень эффективно, но что-то подобное должно, тем не менее, дать правильный результат.
sum
,row
,col
иN
наtemp
,m
,n
иdimension
.B = A * transpose(A)
. `&&` эквивалентно*
а||
эквивалентно+
. Просто используйте кублы, чтобы умножить эти две матрицы. В случае, если A логическое, сначала конвертируйте в float.