《OpenACC並行程序設計:性能優化實踐指南》一 2.2 描述並行度

2.2 描述並行度 已經獲知了代碼最爲耗時的部分,接下來開始並行化重要的循環體。通常最好的優化方法是始於最爲耗時的子程序,逐步向下探索。加速耗時75%的代碼,效果優於加速僅耗時15%的代碼。這表明應該首先致力於matvec子程序的加速,然後再對waxpby和dot進行加速。但是,因爲這可能是讀者的OpenACC處女行,所以從這三個函數中最爲簡單的一個開始,逐步改進,直至優化最爲複雜的子程序。這就是
相關文章
相關標籤/搜索