《Bandwidth Reduced Parallel SpMV on the SW26010 Many-Core Platform》讀後筆記

核心思路:1)通過輕工作量的預處理階段,把矩陣A縱向從上到下分割成一個個的row-slice,劃分後每個row-slice中的非零元個數大致相同。每個row-slice由一個CPE單獨計算。 2)計算一個row-slice時,讀取相應的x時使用動態前向規劃技術避免取到無用的x,降低了帶寬。 3)對CPE進行劃分,同組CPE可以共享所需要的x,可進一步降低帶寬。 4)設計了parameter aut
相關文章
相關標籤/搜索