《OpenACC並行程序設計:性能優化實踐指南》一 2.4 優化循環

2.4 優化循環 此刻,測試代碼可以比原始代碼加速2倍了。但這是能夠獲得的性能最好的代碼嗎?目前添加的導語可以在任何加速器上實現代碼的提速,但爲了在特定的測試機器上取得最佳性能,需要使用特定目標設備優化技術。萬幸的是,OpenACC提供了一種指定devcie_type的優化手段,因此特定的子句僅在編譯爲指定設備的代碼時纔會生效。首先從分析目前代碼的編譯器反饋信息着手,針對matvec子程序,因爲它
相關文章
相關標籤/搜索