一致性hash算法

時間 2019-11-15

標籤一致性 hash 算法欄目 Zookeeper 简体版

原文原文鏈接

一致性hash算法（consistent hashing）

consistent hashing算法早在1997年就在論文Consistent hashing and random trees中被提出，目前在cache系統中應用愈來愈普遍；java

1基本場景

好比你有N個cache服務器（後面簡稱cache），那麼如何將一個對象object映射到N個cache上呢，你極可能會採用相似下面的通用方法計算object的hash值，而後均勻的映射到到N個cache；node

hash(object)%Nweb

一切都運行正常，再考慮以下的兩種狀況；算法

1 一個cache服務器m down掉了（在實際應用中必需要考慮這種狀況），這樣全部映射到cache m的對象都會失效，怎麼辦，須要把cache m從cache中移除，這時候cache是N-1臺，映射公式變成了hash(object)%(N-1)；服務器

2 因爲訪問加劇，須要添加cache，這時候cache是N+1臺，映射公式變成了hash(object)%(N+1)；dom

1和2意味着什麼？這意味着忽然之間幾乎全部的cache都失效了。對於服務器而言，這是一場災難，洪水般的訪問都會直接衝向後臺服務器；函數

再來考慮第三個問題，因爲硬件能力愈來愈強，你可能想讓後面添加的節點多作點活，顯然上面的hash算法也作不到。spa

有什麼方法能夠改變這個情況呢，這就是consistent hashing....net

2 hash算法和單調性

　　Hash算法的一個衡量指標是單調性（Monotonicity），定義以下：code

　　單調性是指若是已經有一些內容經過哈希分派到了相應的緩衝中，又有新的緩衝加入到系統中。哈希的結果應可以保證原有已分配的內容能夠被映射到新的緩衝中去，而不會被映射到舊的緩衝集合中的其餘緩衝區。

容易看到，上面的簡單hash算法hash(object)%N難以知足單調性要求。

3 consistent hashing算法的原理

consistent hashing是一種hash算法，簡單的說，在移除/添加一個cache時，它可以儘量小的改變已存在key映射關係，儘量的知足單調性的要求。

下面就來按照5個步驟簡單講講consistent hashing算法的基本原理。

3.1環形hash空間

考慮一般的hash算法都是將value映射到一個32爲的key值，也便是0~2^32-1次方的數值空間；咱們能夠將這個空間想象成一個首（0）尾（2^32-1）相接的圓環，以下面圖1所示的那樣。

圖1環形hash空間

3.2 把對象映射到hash空間

接下來考慮4個對象object1~object4，經過hash函數計算出的hash值key在環上的分佈如圖2所示。

hash(object1) = key1;

… …

hash(object4) = key4;

圖2 4個對象的key值分佈

3.3 把cache映射到hash空間

Consistent hashing的基本思想就是將對象和cache都映射到同一個hash數值空間中，而且使用相同的hash算法。

假設當前有A,B和C共3臺cache，那麼其映射結果將如圖3所示，他們在hash空間中，以對應的hash值排列。

hash(cache A) = key A;

… …

hash(cache C) = key C;

圖3 cache和對象的key值分佈

說到這裏，順便提一下cache的hash計算，通常的方法可使用cache機器的IP地址或者機器名做爲hash輸入。

3.4 把對象映射到cache

如今cache和對象都已經經過同一個hash算法映射到hash數值空間中了，接下來要考慮的就是如何將對象映射到cache上面了。

在這個環形空間中，若是沿着順時針方向從對象的key值出發，直到碰見一個cache，那麼就將該對象存儲在這個cache上，由於對象和cache的hash值是固定的，所以這個cache必然是惟一和肯定的。這樣不就找到了對象和cache的映射方法了嗎？！

依然繼續上面的例子（參見圖3），那麼根據上面的方法，對象object1將被存儲到cache A上；object2和object3對應到cache C；object4對應到cache B；

3.5 考察cache的變更

前面講過，經過 hash而後求餘的方法帶來的最大問題就在於不能知足單調性，當cache有所變更時，cache會失效，進而對後臺服務器形成巨大的衝擊，如今就來分析分析consistent hashing算法。

3.5.1 移除cache

考慮假設cache B掛掉了，根據上面講到的映射方法，這時受影響的將僅是那些沿cache B逆時針遍歷直到下一個cache（cache A）之間的對象，也便是原本映射到cache B上的那些對象。

所以這裏僅須要變更對象object4，將其從新映射到cache C上便可；參見圖4。

圖4 Cache B被移除後的cache映射

3.5.2 添加cache

再考慮添加一臺新的cache D的狀況，假設在這個環形hash空間中，cache D被映射在對象object2和object3之間。這時受影響的將僅是那些沿cache D逆時針遍歷直到下一個cache（cache B）之間的對象（它們是也原本映射到cache C上對象的一部分），將這些對象從新映射到cache D上便可。

所以這裏僅須要變更對象object2，將其從新映射到cache D上；參見圖5。

圖5 添加cache D後的映射關係

4 虛擬節點

考量Hash算法的另外一個指標是平衡性(Balance)，定義以下：

平衡性

　　平衡性是指哈希的結果可以儘量分佈到全部的緩衝中去，這樣可使得全部的緩衝空間都獲得利用。

hash算法並非保證絕對的平衡，若是cache較少的話，對象並不能被均勻的映射到cache上，好比在上面的例子中，僅部署cache A和cache C的狀況下，在4個對象中，cache A僅存儲了object1，而cache C則存儲了object二、object3和object4；分佈是很不均衡的。

爲了解決這種狀況，consistent hashing引入了「虛擬節點」的概念，它能夠以下定義：

「虛擬節點」（virtual node）是實際節點在hash空間的複製品（replica），一實際個節點對應了若干個「虛擬節點」，這個對應個數也成爲「複製個數」，「虛擬節點」在hash空間中以hash值排列。

仍以僅部署cache A和cache C的狀況爲例，在圖4中咱們已經看到，cache分佈並不均勻。如今咱們引入虛擬節點，並設置「複製個數」爲2，這就意味着一共會存在4個「虛擬節點」， cache A1, cache A2表明了cache A；cache C1, cache C2表明了cache C；假設一種比較理想的狀況，參見圖6。

圖6 引入「虛擬節點」後的映射關係

此時，對象到「虛擬節點」的映射關係爲：

objec1->cache A2；objec2->cache A1；objec3->cache C1；objec4->cache C2；

所以對象object1和object2都被映射到了cache A上，而object3和object4映射到了cache C上；平衡性有了很大提升。

引入「虛擬節點」後，映射關係就從{對象->節點}轉換到了{對象->虛擬節點}。查詢物體所在cache時的映射關係如圖7所示。

圖7 查詢對象所在cache

「虛擬節點」的hash計算能夠採用對應節點的IP地址加數字後綴的方式。例如假設cache A的IP地址爲202.168.14.241。

引入「虛擬節點」前，計算cache A的hash值：

Hash(「202.168.14.241」);

引入「虛擬節點」後，計算「虛擬節」點cache A1和cache A2的hash值：

Hash(「202.168.14.241#1」); // cache A1

Hash(「202.168.14.241#2」); // cache A2