CUDA實踐指南(十五)

分段訪問: 如上所示,在順序訪問未對齊的情況下,計算能力2.x設備的高速緩存有助於實現合理的性能。 然而,它可能與非單位跨步訪問有所不同,並且這是處理多維數據或矩陣時經常發生的模式。 出於這個原因,確保所獲取的每個緩存行中的數據儘可能多地被實際使用,這是這些設備上的存儲器訪問的性能優化的重要部分。 爲了說明跨接訪問對有效帶寬的影響,請參閱內核中的內核strideCopy(),以說明非單元跨度數據副
相關文章
相關標籤/搜索