CUDA編程（四）並行化我們的程序

時間 2020-12-31

原文原文鏈接

CUDA編程（四） CUDA編程（四）並行化我們的程序上一篇博客主要講解了怎麼去獲取核函數執行的準確時間，以及如何去根據這個時間評估CUDA程序的表現，也就是推算所謂的內存帶寬，博客的最後我們計算了在GPU上單線程計算立方和的程序的內存帶寬，發現其內存帶寬的表現是十分糟糕的，其所使用的內存帶寬大概只有 5M/s，而像GeForce 8800GTX這樣比較老的顯卡，也具有超過50GB/s 的內存帶

>>阅读原文<<