一致性hash算法原理及其代碼實現

小知識

在分佈式項目中,分庫分表通常使用取模算法,好比一個電商項目,用戶量很大,那麼能夠使用用戶ID進行hash取模,進行分表,可是有個嚴重問題,若是分表數目沒有預估好,隨着用戶量不斷增大,單表數據量過大,這個時候須要擴容,改變分表數,數據遷移的難度就太大了。
一致性hash算法就能夠解決分佈式狀況下動態擴容問題。html

原理

1.先構造一個長度爲2^32的整數環(範圍[0, 2^32-1]);
2.根據節點名稱的hash值將服務器節點放到環上;
3.根據數據key值計算出其hash值,在hash環上沿順時針尋找最近的服務器節點,將數據放入其中。java

在上圖中添加一個服務器node5,只會影響node4上的數據分佈,同時若是node4服務器失效,也只會影響相鄰服務器節點,這在分佈式環境中很好的支持了動態擴容與容錯。

代碼實現

使用TreeMap,鍵爲hash值,value爲服務器節點名稱,TreeMap的firstKey()方法會找到升序最大的一個key的位置,即數據應該落到的服務器節點位置。node

public class ConsistentHash {
    //服務器列表名稱
    private static String[] servers = {"192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111",
            "192.168.0.3:111", "192.168.0.4:111"};

    //key是服務器的hash值,value是服務器的名稱
    private static SortedMap<Integer, String> sortedMap = new TreeMap<>();

    static {
        for (int i = 0; i < servers.length; i++) {
            int hash = getHash(servers[i]);
            System.out.println("[" + servers[i] + "]加入集合中, 其Hash值爲" + hash);
            sortedMap.put(hash, servers[i]);
        }
        System.out.println("---------------");
    }

    /** * 使用FNV1_32_HASH算法計算服務器的Hash值,String自帶的hashcode分佈不均 */
    private static int getHash(String str) {
        final int p = 16777619;
        int hash = (int) 2166136261L;
        for (int i = 0; i < str.length(); i++)
            hash = (hash ^ str.charAt(i)) * p;
        hash += hash << 13;
        hash ^= hash >> 7;
        hash += hash << 3;
        hash ^= hash >> 17;
        hash += hash << 5;
        // 若是算出來的值爲負數則取其絕對值
        if (hash < 0)
            hash = Math.abs(hash);
        return hash;
    }

    private static String getServer(String str) {
        //求出hash值
        int hash = getHash(str);

        //獲取大於hash部分,返回值是map
        SortedMap<Integer, String> subMap =
                sortedMap.tailMap(hash);

        // 第一個Key就是順時針過去離node最近的那個結點
        Integer i = subMap.firstKey();

        return subMap.get(i);
    }

    public static void main(String[] args) {
        String[] nodes = {"127.0.0.1:1111", "221.226.0.1:2222", "10.211.0.1:3333"};

        for (int i = 0; i < nodes.length; i++)
            System.out.println("[" + nodes[i] + "]的hash值爲" +
                    getHash(nodes[i]) + ", 被路由到結點[" + getServer(nodes[i]) + "]");
    }
}
//注, 本段代碼使用的是https://www.cnblogs.com/xrq730/p/5186728.html這篇博客

虛擬節點

在上面圖中,添加node5節點會致使本來落在node4上面的部分數據落在node5上,和其它服務器節點相比,數據分佈不均勻,致使數據傾斜。算法

解決這個問題的方案就是將真實的節點映射成多個虛擬節點,實際運用中設置成32個節點甚至更多,這樣數據分佈相對均勻。緩存

代碼:服務器

public class ConsistentHashWithVirtualNode {

    //服務器列表名稱
    private static String[] servers = {"192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111",
            "192.168.0.3:111", "192.168.0.4:111"};

    //真實結點列表,考慮到服務器上線、下線的場景,即添加、刪除的場景會比較頻繁,這裏使用LinkedList會更好
    private static List<String> realList = new LinkedList<>();

    //虛擬節點
    private static SortedMap<Integer, String> vnMap = new TreeMap<>();

    //設置真實節點對應虛擬節點個數比例
    private static final int VIRTUAL_NODES = 5;

    //初始化真實節點列表和虛擬節點列表,構造hash環
    static {
        for (int i = 0; i < servers.length ; i++) {
            realList.add(servers[i]);
        }

        for (String item: realList) {
            for (int i = 0; i < VIRTUAL_NODES; i++) {
                //添加一個後綴做爲虛擬節點名稱
                String virtualNodeName = item + "&&VN" + String.valueOf(i);
                int hash = getHash(virtualNodeName);
                System.out.println("虛擬節點[" + virtualNodeName + "]被添加, hash值爲" + hash);
                vnMap.put(hash, virtualNodeName);
            }
        }
    }

    private static String getServer(String str) {
        //求出hash值
        int hash = getHash(str);

        //獲取大於hash部分,返回值是map
        SortedMap<Integer, String> subMap =
                vnMap.tailMap(hash);

        // 第一個Key就是順時針過去離node最近的那個結點
        Integer i = subMap.firstKey();
        String vstr = subMap.get(i);
        //刪除後綴做爲實際節點名稱
        return vstr.substring(0, vstr.indexOf("&&"));
    }
}

使用場景

分佈式緩存memcache中使用了此算法,Memcached client客戶端生成hash值用的是Ketama算法,用TreeMap存儲全部節點,推薦閱讀源碼。分佈式

相關文章
相關標籤/搜索