GPU 規約算法步驟 1

1 加載數據 每個線程從全局內存加載一個元素到共享內存中, 2 規約操作: 需要處理log N步 第一個線程規約前兩個元素 第二個線程規約接下來的兩個元素 每兩次相加得到部分和 。。。。依次類推 每個一步後都有一半的線程被丟棄了,處於死狀態 最終只有一個線程處於活躍轉態 3 將結果寫回全局內存 二叉樹算法 算法效率低,有效利用率低。 指令分散導致效率很低 很多cuda core處於空閒轉態。  
相關文章
相關標籤/搜索