CUDA學習——Chapter 2(4)內存空間佈局對核函數性能的影響(1)

第二章 1.座標映射 從前面的博文我們可以知道,global memory是可以劃分成網格(一個程序對應一個網格),網格由塊組成,塊由線程組成。一個塊內的線程可以相互訪問,相互等待。 通過對前面並行向量加法的分析,我們知道,網格和塊的大小會影響核函數的性能,這一篇博文將隨着書本來探究如何組織網格和塊從而獲得更高效的性能。 還是以矩陣加法爲例,在矩陣加法中,傳統的是使用二維網格和二維塊的佈局來分配線
相關文章
相關標籤/搜索