存儲器的層次結構

時間 2019-12-04

標籤存儲器層次結構简体版

原文原文鏈接

存儲技術

咱們在買電腦時都會關注內存、處理器、硬盤等部件的性能，都想內存儘量大，硬盤最好是固態的。git

不知道你有沒有遇到過本身寫了大半天的文檔，由於不當心忽然關機了，本身辛苦忙活了幾個小時的成果又得重寫的狀況。但是你是否想過爲何關機了就會丟失這些信息呢？爲何硬盤上的文件沒有丟？程序員

會丟的那部分信息確定是和電有關係的，否則也不會一斷電就丟信息。內存就是這樣的部件，更專業一點的稱呼是隨機訪問存儲器。github

隨機訪問存儲器（RAM）分靜態和動態的兩種，靜態 RAM 是將信息存儲在一個雙穩態的存儲單元裏。什麼叫雙穩態呢？就是隻有兩種穩定的狀態，雖然也有其它狀態，但即便細微的擾動，也會讓它立馬進入一個穩定的狀態。編程

動態 RAM 使用的是電容來存儲信息，學過物理的都知道電容這個概念，它很容易就會漏電，使得動態 RAM 單元在 10~100 ms 時間內就會丟失電荷（信息），可是不要忘記，計算機的運行時間是以納秒計算的，1 GHz 的處理器的時鐘週期就是 1 ns，更況且如今的處理器都不止 1 GHz，因此 ms 相對於納秒來講是很長的，計算機不用擔憂會丟失信息。數組

動態 RAM 芯片就封裝在內存模塊中，比內存更大的存儲部件是磁盤，發現本身在舊文你真的瞭解硬盤嗎？對磁盤總結的已經不錯了，就直接過渡到局部性上面去了吧。緩存

局部性

局部性一般有兩種不一樣的形式：時間局部性和空間局部性。在一個具備良好時間局部性的程序中，被引用過一次的內存位置極可能在不遠的未來會再被屢次引用；一樣在一個具備良好空間局部性的程序中，若是一個內存被引用了一次，那麼程序極可能在不遠的未來引用附近的一個內存位置。服務器

不要小看局部性，局部性好的程序會比局部性差的程序運行的更快，要往高級程序員走，這是確定須要瞭解的。咱們選擇把一些經常使用的文件從網盤下下來，利用的就是時間局部性。網絡

下面這段代碼，再簡單不過，咱們僅觀察一下其中的v向量，向量v的元素是一個接一個被讀取的，即按照存儲在內存中的順序被讀取的，因此它有很好的空間局部性；可是每一個元素都只被訪問一次，就使得時間局部性不好了。實際上對於循環體中的每一個變量，這個函數要麼具備好的空間局部性，要麼具備好的時間局部性。編程語言

int sumvec(int v[N]){
    int i, sum = 0;
    for(i = 0; i < N; i++){
        sum += v[i];
    }
    return sum;
}
複製代碼

像上面的代碼，每隔 1 個元素進行訪問，稱之爲步長爲 1 的引用模式。通常而言，隨着步長的增長，空間局部性降低。函數

固然，不只數據引用有局部性，取指令也有局部性。好比for循環，循環體中的指令是按順序執行的，而且會被執行屢次，因此它有良好的空間局部性和時間局部性。

高速緩存

不一樣存儲技術的訪問時間差別很大，而咱們想要的是又快又大的體驗，然而這又是違背機械原理的。爲了讓程序運行的更快，計算機設計者在不一樣層級之間加了緩存，好比在 CPU 與內存之間加了高速緩存，而內存又做爲磁盤的緩存，本地磁盤又是 Web 服務器的緩存。屢次訪問一個網頁，會發現有一些網絡請求的狀態碼是 300，這就是從本地緩存讀取的。

以下圖所示，高速緩存一般被組織爲下面的形式，計算機須要從具體的地址去拿指令或者數據，而這個地址也被切分爲不一樣的部分，能夠直接映射到緩存上去。看下面詳細的介紹應該更容易理解。

直接映射高速緩存每一個組只有一行。高速緩存肯定一個請求是否命中，而後抽取出被請求的字的過程分爲：組選擇、行匹配、字抽取三步。

好比當 CPU 執行一條讀內存字w的指令，首先從w地址中間抽取出s個組索引位，映射到對應的組，而後經過t位標記肯定是否有字w的一個副本存儲在該組中；最後使用b位的塊偏移肯定所須要的字塊是從哪裏開始的。

上面這個圖，還有下面這個表，對應着看，因爲能力有限，感受怎麼都講很差，多盯着一下子，應該就會得到一種豁然開朗之感。

直接映射高速緩存形成衝突不命中的緣由在於每一個組只有一行，組相聯高速緩存放鬆了這一限制，每一個組都保存多於一行的高速緩存行，因此在組選擇完成以後，須要遍歷對應組中的行進行行匹配。

固然，咱們能夠把每一個組中的緩存行數繼續擴大，即全相聯高速緩存，全部的緩存行都在一個組，它總共只有一個組。所以對地址的劃分就不須要組索引了，以下圖所示。

編寫緩存友好的代碼

float dotprod(float x[8], float y[8]){
    float sum = 0.0;
    int i;
    for(i = 0; i < 8; i++){
        sum += x[i] * y[i];
    }
    return sum;
}
複製代碼

這段函數很簡介，就是計算兩個向量點積的函數，並且對於x和y來講，這個函數具備很好的空間局部性，若是使用直接映射高速緩存，那它的緩存命中率並不高。

從表中就能看到，每次對x和y的引用都會致使衝突不命中，由於咱們在x和y的塊之間抖動，即高速緩存反覆的加載替換相同的高速緩存塊組。

咱們只須要作一個小小的改動，就能讓命中率大大提升，即讓程序運行的更快。這個改動就是把float x[8]改成floatx[12]，改動後的索引映射就變成下面那樣了，很是的友好。

再來看一個多維數組，函數的功能是對全部元素求和，兩種不一樣的寫法。

// 第一種
int sumarrayrows(int a[M][N]){
    int i, j, sum = 0;
    for(i = 0; i < M; i++){
        for(j = 0; j < N; j++){
            sum += a[i][j];
        }
    }
    return sum;
}

// 第二種
int sumarrayrows(int a[M][N]){
    int i, j, sum = 0;
    for(j = 0; j < M; j++){
        for(i = 0; i < N; i++){
            sum += a[i][j];
        }
    }
    return sum;
}
複製代碼