CUDA優化--核函數--浮點數類型轉換

在編寫CUDA內核時,遇到一個問題,如下在覈函數中使用一個2.1的浮點數,沒有作類型聲明,如(float)2.1或double(2.1).. 一. 實際上,cuda默認2.1是double,在覈函數計算過程中進行了類型轉換,流水線中arithmetic workload和單精度的計算峯值的分析結果如下: 好吃驚!!!43.98%用於FloatP64轉換,35%用於數值計算,浪費太嚴重,峯值性能只有
相關文章
相關標籤/搜索