《OpenACC並行程序設計:性能優化實踐指南》一 3.9 增加GPU任務並行

3.9 增加GPU任務並行 在圖3-10中,放大主機-設備的追蹤數據,可以看出在一些內核啓動和開始執行內核間有時間差。此外,因爲同步主機與GPU間的數據拷貝,所以GPU依舊有時空閒。使用CUDA流引入異步GPU活動,來確保PIConGPU可以向GPU發送更多的任務,讓GPU找出最好的處理方式。圖3-11顯示了使用CUDA流的結果。現在每個主機線程都使用CUDA流(每個GPU有5個流),一個流負責主
相關文章
相關標籤/搜索