存儲器的層次結構

存儲技術

    咱們在買電腦時都會關注內存、處理器、硬盤等部件的性能,都想內存儘量大,硬盤最好是固態的。git

    不知道你有沒有遇到過本身寫了大半天的文檔,由於不當心忽然關機了,本身辛苦忙活了幾個小時的成果又得重寫的狀況。但是你是否想過爲何關機了就會丟失這些信息呢?爲何硬盤上的文件沒有丟?程序員

    會丟的那部分信息確定是和電有關係的,否則也不會一斷電就丟信息。內存就是這樣的部件,更專業一點的稱呼是隨機訪問存儲器。github

    隨機訪問存儲器(RAM)分靜態和動態的兩種,靜態 RAM 是將信息存儲在一個雙穩態的存儲單元裏。什麼叫雙穩態呢?就是隻有兩種穩定的狀態,雖然也有其它狀態,但即便細微的擾動,也會讓它立馬進入一個穩定的狀態。編程

    動態 RAM 使用的是電容來存儲信息,學過物理的都知道電容這個概念,它很容易就會漏電,使得動態 RAM 單元在 10~100 ms 時間內就會丟失電荷(信息),可是不要忘記,計算機的運行時間是以納秒計算的,1 GHz 的處理器的時鐘週期就是 1 ns,更況且如今的處理器都不止 1 GHz,因此 ms 相對於納秒來講是很長的,計算機不用擔憂會丟失信息。數組

    動態 RAM 芯片就封裝在內存模塊中,比內存更大的存儲部件是磁盤,發現本身在舊文你真的瞭解硬盤嗎?對磁盤總結的已經不錯了,就直接過渡到局部性上面去了吧。緩存

局部性

    局部性一般有兩種不一樣的形式:時間局部性和空間局部性。在一個具備良好時間局部性的程序中,被引用過一次的內存位置極可能在不遠的未來會再被屢次引用;一樣在一個具備良好空間局部性的程序中,若是一個內存被引用了一次,那麼程序極可能在不遠的未來引用附近的一個內存位置。服務器

    不要小看局部性,局部性好的程序會比局部性差的程序運行的更快,要往高級程序員走,這是確定須要瞭解的。咱們選擇把一些經常使用的文件從網盤下下來,利用的就是時間局部性。網絡

    下面這段代碼,再簡單不過,咱們僅觀察一下其中的v向量,向量v的元素是一個接一個被讀取的,即按照存儲在內存中的順序被讀取的,因此它有很好的空間局部性;可是每一個元素都只被訪問一次,就使得時間局部性不好了。實際上對於循環體中的每一個變量,這個函數要麼具備好的空間局部性,要麼具備好的時間局部性。編程語言

int sumvec(int v[N]){
    int i, sum = 0;
    for(i = 0; i < N; i++){
        sum += v[i];
    }
    return sum;
}
複製代碼

    像上面的代碼,每隔 1 個元素進行訪問,稱之爲步長爲 1 的引用模式。通常而言,隨着步長的增長,空間局部性降低。函數

    固然,不只數據引用有局部性,取指令也有局部性。好比for循環,循環體中的指令是按順序執行的,而且會被執行屢次,因此它有良好的空間局部性和時間局部性。

高速緩存

    不一樣存儲技術的訪問時間差別很大,而咱們想要的是又快又大的體驗,然而這又是違背機械原理的。爲了讓程序運行的更快,計算機設計者在不一樣層級之間加了緩存,好比在 CPU 與內存之間加了高速緩存,而內存又做爲磁盤的緩存,本地磁盤又是 Web 服務器的緩存。屢次訪問一個網頁,會發現有一些網絡請求的狀態碼是 300,這就是從本地緩存讀取的。

    以下圖所示,高速緩存一般被組織爲下面的形式,計算機須要從具體的地址去拿指令或者數據,而這個地址也被切分爲不一樣的部分,能夠直接映射到緩存上去。看下面詳細的介紹應該更容易理解。

image

    直接映射高速緩存每一個組只有一行。高速緩存肯定一個請求是否命中,而後抽取出被請求的字的過程分爲:組選擇行匹配字抽取三步。

    好比當 CPU 執行一條讀內存字w的指令,首先從w地址中間抽取出s個組索引位,映射到對應的組,而後經過t位標記肯定是否有字w的一個副本存儲在該組中;最後使用b位的塊偏移肯定所須要的字塊是從哪裏開始的。

image

    上面這個圖,還有下面這個表,對應着看,因爲能力有限,感受怎麼都講很差,多盯着一下子,應該就會得到一種豁然開朗之感。

image

    直接映射高速緩存形成衝突不命中的緣由在於每一個組只有一行,組相聯高速緩存放鬆了這一限制,每一個組都保存多於一行的高速緩存行,因此在組選擇完成以後,須要遍歷對應組中的行進行行匹配。

image

    固然,咱們能夠把每一個組中的緩存行數繼續擴大,即全相聯高速緩存,全部的緩存行都在一個組,它總共只有一個組。所以對地址的劃分就不須要組索引了,以下圖所示。

image

編寫緩存友好的代碼

float dotprod(float x[8], float y[8]){
    float sum = 0.0;
    int i;
    for(i = 0; i < 8; i++){
        sum += x[i] * y[i];
    }
    return sum;
}
複製代碼

    這段函數很簡介,就是計算兩個向量點積的函數,並且對於xy來講,這個函數具備很好的空間局部性,若是使用直接映射高速緩存,那它的緩存命中率並不高。

image

    從表中就能看到,每次對xy的引用都會致使衝突不命中,由於咱們在xy的塊之間抖動,即高速緩存反覆的加載替換相同的高速緩存塊組。

    咱們只須要作一個小小的改動,就能讓命中率大大提升,即讓程序運行的更快。這個改動就是把float x[8]改成floatx[12],改動後的索引映射就變成下面那樣了,很是的友好。

image

    再來看一個多維數組,函數的功能是對全部元素求和,兩種不一樣的寫法。

// 第一種
int sumarrayrows(int a[M][N]){
    int i, j, sum = 0;
    for(i = 0; i < M; i++){
        for(j = 0; j < N; j++){
            sum += a[i][j];
        }
    }
    return sum;
}

// 第二種
int sumarrayrows(int a[M][N]){
    int i, j, sum = 0;
    for(j = 0; j < M; j++){
        for(i = 0; i < N; i++){
            sum += a[i][j];
        }
    }
    return sum;
}
複製代碼

    從編程語言角度來看,兩種寫法的效果是同樣的, 都是求數組全部元素的和,可是深刻分析就會發現,第一種寫法會比第二種運行的更快,由於第二種寫法一次緩存命中都不會發生,而第一種寫法會有 24 次緩存命中,因此第一比第二種運行更快是必然的結果,第一種和第二種的緩存命中模式分別以下所示(粗體表示不命中)。

image

image
相關文章
相關標籤/搜索