CUDA學習——Chapter 2(4)內存空間佈局對核函數性能的影響(2)

第二章 3.使用一維網格和一維塊對矩陣求和 前面我們使用了二維網格和二維塊對矩陣求和,這種分割是非常直觀的。那麼現在我們就要使用抽象一點的概念,以稍複雜的編程來獲得可能能取得的更高的性能。這就需要我們對映射有比較好的深入瞭解。 首先,我們再複習一下一維網格和一維塊的結構: 其中,nx是x方向上最大的線程數,ny是一個線程需要處理的數據元素個數(因爲這個塊是一維的,照理來說是不應該有ny的)。所以這
相關文章
相關標籤/搜索