實際測試內存在順序IO和隨機IO時的訪問延時差別

時間 2021-02-14

標籤數組緩存 app dom ide 測試 spa code orm blog 欄目 HTML 简体版

原文原文鏈接

在《內存隨機訪問也比順序慢，帶你深刻理解內存IO過程》一文中，咱們理解了內存IO的內部實現過程，知道了內存的隨機IO比順序IO要慢，並對延遲時間進行了大概的估算。那麼咱們今天來用代碼的方式來實踐一下，看看在咱們的項目工程中，內存訪問的在不一樣的訪問場景下延時到底是個什麼表現。數組

先測順序狀況

測試原理就是定義一個指定大小的double（8字節）數組，而後以指定的步長去循環。這裏面的變量有兩個。核心代碼以下：緩存

void init_data(double *data, int n){
 int i;
 for (i = 0; i < n; i++) {
 data[i] = i;
 }
}

void seque_access(int elems, int stride) {
 int i;
 double result = 0.0;
 volatile double sink;

 for (i = 0; i < elems; i += stride) {
 result += data[i];
 }
 sink = result;
}

在這個核心代碼的基礎上，咱們有兩個可調節變量：app

一是數組大小，數組越小，高速緩存命中率越高，平均延時就會越低。dom
二是循環步長，步長越小，順序性越好，一樣也會增長緩存命中率，平均延時也低。咱們在測試的過程當中採起的辦法是，固定其中一個變量，而後動態調節另一個變量來查看效果。ide

另外說明一下，這個代碼測試中考慮的幾個額外的開銷的處理狀況。
1.加法開銷：因爲加法指令簡單，一個CPU週期就可完成，CPU週期比內存週期要快，因此暫且忽略它。
2.耗時統計：這涉及到高開銷的系統調用，本實驗經過跑1000次取一次耗時的方式來下降影響。

場景一：固定數組大小2K，調節步長測試

圖1 固定數組2k，動態調節步長spa

數組足夠小的時候，L1 cache所有都能裝的下。內存IO發生較少，大部分都是高效的緩存IO，因此我這裏看到的內存延時只有1ns左右，這其實只是虛擬地址轉換+L1訪問的延時。code

場景二：固定步長爲8，數組從32K到64Morm

圖2 固定步長，動態調節數組從32K到64Mblog

當數組愈來愈大，Cache裝不下，致使穿透高速緩存，到內存實際IO的次數就會變多，平均耗時就增長

場景三：步長爲32，數組從32K到64M

圖3 固定步長爲32，動態調節數組從32K到64M

和場景二相比，步長變大之後，局部性變差，穿透的內存IO進一步增長。雖然數據量同樣大，可是平均耗時就會繼續有所上漲。不過雖然穿透增長，但因爲訪問地址仍然相對比較連續，因此即便發生內存IO也絕大部分都是行地址不變的順序IO狀況。因此耗時在9ns左右，和以前估算大體相符！

另外注意一個細節，就是隨着數組從64M到32M變化的過程當中。耗時有幾個明顯的降低點，分別是8M，256K和32K。這是由於本機的CPU的L1大小是32K，L2是256K，L3是12M。在數據集32K的時候，L1全能裝的下，全部基本都是高速緩存IO。256K的時候、8M的時候，雖然L1命中率降低，可是L二、L3訪問速度仍然比真正的內存IO快。可是超過12M之後越多，真正的內存IO就愈來愈多了。

再測隨機IO狀況

在順序的實驗場景裏，數組的下標訪問都是比較有規律地遞增。在隨機IO的測試中，咱們要完全打亂這個規律，提早隨機好一個下標數組，實驗時不停地訪問數組的各個隨機位置。

void init_data(double *data, int n){
 int i;
 for (i = 0; i < n; i++) {
 data[i] = i;
 }
}

void random_access(int* random_index_arr, int count) {
 int i;
 double result = 0.0;
 volatile double sink;

 for (i = 0; i < count; i++) {
 result += data[*(random_index_arr+i)];
 }
 sink = result;
}