cuda矩陣轉置

一直覺得經典的cuda矩陣轉置只能用於矩陣的寬高都能被線程塊大小整除的狀況,也是很奇怪,不知道怎麼造成這個概念的,而後此次又要用到,本想着大幹一番,把寬高不能被線程塊整除的矩陣轉置攻克了,但是沒想到一測試,人原本就能夠實現,這就尷尬了, 因此在此記錄下來,糾正本身的這個錯誤。 代碼: #define BLOCK_DIM 16 __global__ void myTranspose(float *i
相關文章
相關標籤/搜索