《OpenACC並行程序設計:性能優化實踐指南》一 3.8 優化GPU內核

3.8 優化GPU內核 現在GPU大部分時刻都是忙碌的,那麼是否可以減少GPU計算時間?如圖3-9所示,使用函數摘要只顯示CUDA函數信息。可以看出,主要耗時的內核是「moveParticles」,第二耗時內核是「cptCurrent」。兩個內核的共同部分是都需要遍歷粒子列表,先積累對粒子的總電流影響(cptCurrent),然後更新粒子的位置(moveParticles)。可見,原來使用的鏈表數
相關文章
相關標籤/搜索