NVIDIA CUDA初級教程視頻--(十)

** 第十章CUDA程序基本優化 ** 1.有效的數據並行算法+針對GPU架構特性的優化=最優性能 2.並行規約parallel reduction:把不相關的計算放到不同的線程 3.warp分割:塊內線程如何劃分warp,通曉warp分割有助於:減少 分支發散,讓warp儘早完工。
相關文章
相關標籤/搜索