CUDA編程(四)並行化我們的程序

CUDA編程(四) CUDA編程(四)並行化我們的程序 上一篇博客主要講解了怎麼去獲取核函數執行的準確時間,以及如何去根據這個時間評估CUDA程序的表現,也就是推算所謂的內存帶寬,博客的最後我們計算了在GPU上單線程計算立方和的程序的內存帶寬,發現其內存帶寬的表現是十分糟糕的,其所使用的內存帶寬大概只有 5M/s,而像GeForce 8800GTX這樣比較老的顯卡,也具有超過50GB/s 的內存帶
相關文章
相關標籤/搜索