[翻譯]CUDA-C-Programming-Guide Maximize InstructionThroughput

5.4 最大化指令吞吐量 爲了達到最大的指令吞吐量,程序應該: 最小化使用低吞吐量的計算指令;有以下方法:在不影響結果的情況下以精度換取執行速度,比如使用指令來代替內置函數,用單精度代替雙浮點精度,或者將非歸一化數據刷新爲0. 最小化分支 減少指令的數量, 本章節中,吞吐量通過每個SM每個時鐘週期進行的運算次數來表示。對於一個warp=32,一條指令對應了32次運算,所有如果一個時鐘週期進行了N次
相關文章
相關標籤/搜索