矩陣分塊轉置降低 cache miss分析 (Cache Lab PartB)

Lab中給出的cache規格爲: s=5, E=1, b=5 矩陣A和B在內存中連續存放。 Lab要求分別對32 * 32 , 64 * 64, 61 * 67的矩陣做轉置優化,用到的都是將矩陣分塊分別轉置的方法。相較於普通轉置,爲什麼分塊能夠優化cache miss次數? 分塊是通過什麼來實現優化的 — > 通過減少B一次訪問的列數。 最根本的原因在於: Cache不能夠一次裝滿整個矩陣,以最小
相關文章
相關標籤/搜索