CUDA實踐指南(二十五)

指令優化: 對指令執行方式的瞭解通常允許進行低級別的優化,尤其是在頻繁運行的代碼(程序中所謂的熱點)中尤其有用。 最佳實踐表明,在完成所有更高級別的優化之後執行此優化。 算術指令: 單精度浮點數提供了最佳的性能,並且極大地鼓勵了它們的使用。單個算術運算的吞吐量詳見CUDA C編程指南。 劃分模數: 低優先級:使用移位操作來避免代價大的除法和模數計算。 整數除法和模運算特別昂貴,應儘可能地避免或用位
相關文章
相關標籤/搜索