代碼 抽出骨架:一個精簡的Openblas api實現

簡潔版本的Openblas實現了一個intel x86_64 sgemm,但 保留了 Openblas骨架和精髓 個人覺得Openblas項目中可以借鑑的地方: 1.多線程快速切換(利用job,去更新參數,而不是釋放和重新生成新線程) 2.矩陣分塊(參考gotoblas的論文),cache利用(尤其在多線程的情況下控制好L3-L1cache的利用程度,最大程度保證cpu不斷流) 3.計算單元彙編級
相關文章
相關標籤/搜索