CUDA學習(三十三)

最大化指令吞吐量: 爲了最大化指令吞吐量,應用程序應 儘量減少低吞吐量的算術指令的使用; 這包括在不影響最終結果的情況下交易的速度精度,例如使用內部函數而不是常規函數(內部函數在內部函數中列出),單精度而不是雙精度,或者將非正則化數字清零。 最小化由控制流程指令引起的分歧warp 減少指令的數量,例如,如同步指令中所述,儘可能優化出同步點,或使用限制指針(如__restrict__中所述)。 在本
相關文章
相關標籤/搜索