cuda編程(5):優化理論

一、優化原則 最大化算術強度; 減少內存操作花費時間; 合併全局內存訪問; 避免線程發散; 把高頻使用數據移動到共享內存; 二、縱向 優化的流程與步驟一般包括如下步驟: 1.1 分析 分析程序的瓶頸、什麼地方需要做並行、能夠提供資源。不要依賴直覺,儘量藉助工具: gProf VTune VerySleepy 1.2 並行 這個階段考慮使用並行庫(OpenMP是CPU上的並行,OpenACC)、指令
相關文章
相關標籤/搜索