NCHW與NC4HW4數據排布在卷積優化上的優劣分析

數據佈局對性能影響巨大。 先來看一看在 NCHW 的佈局下,怎麼利用 SIMD 加速 3x3 的 depth-wise 卷積。 首先,讀取數據時,需要一次性讀取四個 float 作爲第一行的數據,後兩行的讀取也是相似的;此時,讀取出的三行數據已經足夠計算兩列輸出,即,可以複用部分數據;而後,爲了提高數據複用,會再讀取出第四行數據,一次計算兩行兩列,即,可以引入循環展開;然而,殘留的 5~25 和
相關文章
相關標籤/搜索