小知識
在分佈式項目中,分庫分表通常使用取模算法,好比一個電商項目,用戶量很大,那麼能夠使用用戶ID進行hash取模,進行分表,可是有個嚴重問題,若是分表數目沒有預估好,隨着用戶量不斷增大,單表數據量過大,這個時候須要擴容,改變分表數,數據遷移的難度就太大了。
一致性hash算法就能夠解決分佈式狀況下動態擴容問題。html
原理
1.先構造一個長度爲2^32的整數環(範圍[0, 2^32-1]);
2.根據節點名稱的hash值將服務器節點放到環上;
3.根據數據key值計算出其hash值,在hash環上沿順時針尋找最近的服務器節點,將數據放入其中。java
代碼實現
使用TreeMap,鍵爲hash值,value爲服務器節點名稱,TreeMap的firstKey()方法會找到升序最大的一個key的位置,即數據應該落到的服務器節點位置。node
public class ConsistentHash { //服務器列表名稱 private static String[] servers = {"192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111", "192.168.0.3:111", "192.168.0.4:111"}; //key是服務器的hash值,value是服務器的名稱 private static SortedMap<Integer, String> sortedMap = new TreeMap<>(); static { for (int i = 0; i < servers.length; i++) { int hash = getHash(servers[i]); System.out.println("[" + servers[i] + "]加入集合中, 其Hash值爲" + hash); sortedMap.put(hash, servers[i]); } System.out.println("---------------"); } /** * 使用FNV1_32_HASH算法計算服務器的Hash值,String自帶的hashcode分佈不均 */ private static int getHash(String str) { final int p = 16777619; int hash = (int) 2166136261L; for (int i = 0; i < str.length(); i++) hash = (hash ^ str.charAt(i)) * p; hash += hash << 13; hash ^= hash >> 7; hash += hash << 3; hash ^= hash >> 17; hash += hash << 5; // 若是算出來的值爲負數則取其絕對值 if (hash < 0) hash = Math.abs(hash); return hash; } private static String getServer(String str) { //求出hash值 int hash = getHash(str); //獲取大於hash部分,返回值是map SortedMap<Integer, String> subMap = sortedMap.tailMap(hash); // 第一個Key就是順時針過去離node最近的那個結點 Integer i = subMap.firstKey(); return subMap.get(i); } public static void main(String[] args) { String[] nodes = {"127.0.0.1:1111", "221.226.0.1:2222", "10.211.0.1:3333"}; for (int i = 0; i < nodes.length; i++) System.out.println("[" + nodes[i] + "]的hash值爲" + getHash(nodes[i]) + ", 被路由到結點[" + getServer(nodes[i]) + "]"); } } //注, 本段代碼使用的是https://www.cnblogs.com/xrq730/p/5186728.html這篇博客
虛擬節點
在上面圖中,添加node5節點會致使本來落在node4上面的部分數據落在node5上,和其它服務器節點相比,數據分佈不均勻,致使數據傾斜。算法
解決這個問題的方案就是將真實的節點映射成多個虛擬節點,實際運用中設置成32個節點甚至更多,這樣數據分佈相對均勻。緩存
代碼:服務器
public class ConsistentHashWithVirtualNode { //服務器列表名稱 private static String[] servers = {"192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111", "192.168.0.3:111", "192.168.0.4:111"}; //真實結點列表,考慮到服務器上線、下線的場景,即添加、刪除的場景會比較頻繁,這裏使用LinkedList會更好 private static List<String> realList = new LinkedList<>(); //虛擬節點 private static SortedMap<Integer, String> vnMap = new TreeMap<>(); //設置真實節點對應虛擬節點個數比例 private static final int VIRTUAL_NODES = 5; //初始化真實節點列表和虛擬節點列表,構造hash環 static { for (int i = 0; i < servers.length ; i++) { realList.add(servers[i]); } for (String item: realList) { for (int i = 0; i < VIRTUAL_NODES; i++) { //添加一個後綴做爲虛擬節點名稱 String virtualNodeName = item + "&&VN" + String.valueOf(i); int hash = getHash(virtualNodeName); System.out.println("虛擬節點[" + virtualNodeName + "]被添加, hash值爲" + hash); vnMap.put(hash, virtualNodeName); } } } private static String getServer(String str) { //求出hash值 int hash = getHash(str); //獲取大於hash部分,返回值是map SortedMap<Integer, String> subMap = vnMap.tailMap(hash); // 第一個Key就是順時針過去離node最近的那個結點 Integer i = subMap.firstKey(); String vstr = subMap.get(i); //刪除後綴做爲實際節點名稱 return vstr.substring(0, vstr.indexOf("&&")); } }
使用場景
分佈式緩存memcache中使用了此算法,Memcached client客戶端生成hash值用的是Ketama算法,用TreeMap存儲全部節點,推薦閱讀源碼。分佈式