緩存做爲數據庫前的一道屏障,它的可用性與緩存命中率都會直接影響到數據庫,因此除了配置主從保證高可用以外還須要設計分佈式緩存來擴充緩存的容量,將數據分佈在多臺機器上若是有一臺不可用了對總體影響也比較小。很少說,你懂我意思的!html
緩存的分佈式集羣和應用服務器不一樣,緩存的分佈式是每臺機器上的緩存數據是不同的,不像應用服務器是無狀態的,每臺機器上的服務是一致的。緩存訪問請求不能夠在緩存服務器集羣中的任意一臺處理,必須找到緩存有須要數據的服務器。因此保證在新上線機器和刪除機器的時候整個集羣中的已經緩存的數據儘量地還被訪問獲得是分佈式緩存系統設計的終極目錄(這句話有點長)。java
如何選擇到正確的服務器須要使用好的路由算法,下面以簡單的餘數Hash算法爲例來選擇服務器:node
首先用緩存數據的key的hash值除以服務器的數目,獲得的餘數就是集羣服務器列表的下標。這樣就能夠定位到正確的服務節點。好比有3臺服務器,node1,node2,node3對應在服務器列表編號爲1,2,3。key爲「Hello」的緩存查詢請求來了以後,計算Hello的Hash值,假如爲23432113,除以3餘數假如是1,那就說明數據在node1上。算法
這種算法可否保證各服務節點保存的數據量大體相同徹底依賴於key的hash值是否夠分散。因此一般不會直接使用java對象的hashCode(),這個方法計算出來的值不夠分散,而是先計算出對象的MD5值而後再調用hashCode()。數據庫
問題來了,假如新增一臺機器,3臺擴展到4臺,這時候的除數變爲4了,以前機器計算出來的餘數都和以前不一致了,也就是說不再能正確命中到緩存服務器,請求就直接到達數據庫,大大增長了數據庫的負載能力。針對這個問題一種解決辦法是在網站訪問量最少的時候擴容服務器,而後經過模擬請求的方法對緩存進行預熱,使得數據在緩存服務器中從新分佈。固然這種方案有點low,另一種方法是改進路由算法,使得新加入的服務器不影響大部分緩存數據的正確命中。目前比較流行的就是一致性Hash算法。緩存
一致性Hash算法大體過程:服務器
1,先構造一個長度爲2^32的整數環(稱爲一致性Hash環,分佈範圍爲[0,2^32-1])數據結構
2,根據節點名稱(例如IP或機器名)的Hash值放置在這個Hash環上。分佈式
3,而後根據須要緩存的數據的key值計算出Hash值,一樣也分佈在Hash環上。函數
4,當取緩存時,根據key算出Hash,而後順時針查找離這個Hash值最近的服務節點,這個緩存值就保存在這個節點中。
一致性Hash算法可使用二叉查找樹來實現,Hash查找的過程實際上就是在二叉樹中查找不小於查找數的最小數值,二叉樹最右邊葉子節點和最左邊的葉子節點相鏈接,就能夠形成環狀的數據結構。在Java中就能夠利用TreeMap輕鬆實現。
二叉查找樹算法參考:http://blog.csdn.net/lcore/article/details/8889176#
如上圖所示,Hash(object1)=key1;Hash(object2)=key2;Hash(object3)=key3;Hash(object4)=key4;分別分佈在Hash環上。若是有三臺機器,Hash(NODE1) = KEY1;Hash(NODE2) = KEY2;Hash(NODE3) = KEY3;因此就以下圖所示,key1找到的是KEY1也就是NODE1;key2找到的是KEY3也就是NODE3;key3找到的是KEY2也就是NODE2;key4找到的是KEY3也就是NODE3。
這時若是新增了一臺NODE4,其Hash爲KEY4,假如在Hash環上分佈以下,那麼key2再也不找KEY3了,找的是KEY4。
新增機器後,key1,key3,key4找的機器相比以前沒有變化。也就是說這種算法能保證以前緩存的大部分數據還能繼續被命中,優於取餘數的Hash算法。但這個算法仍是有一個問題,就是key2被命中到KEY4上了,NODE3有效數據被減小了,若是緩存數據量至關大的時候,會形成集羣上的各個服務器之間的不平衡。
解決這種不平衡的方式是引入虛擬節點,虛擬節點是根據每一臺真實節點而來的,假如NODE1的ip是10.0.0.1,咱們再也不使用這個IP直接計算Hash值放在Hash環上了。而是使用多個10.0.0.1#一、10.0.0.1#2 ......10.0.0.1#N計算多個Hash值放在Hash環上。這樣就至關於給真實節點擴充了N個虛擬節點。這時再加一臺機器就至關於要往Hash環上放N個節點,這N個節點會均衡分佈在環上。這會給以前每一個key值的指向都會產生變化,也就是至關於把變化的指向擴散給環上的多個節點去承擔了。這樣就保證了算法的平衡性。
不說了,看代碼(Java實現的一致性Hash算法,利用TreeMap):
- public class ConsistentHash<T> {
-
-
- private final HashFunction hashFunction;
-
- private final int numberOfReplicas;
-
- private final SortedMap<Integer, T> circle = new TreeMap<Integer, T>();
-
- public ConsistentHash(HashFunction hashFunction, int numberOfReplicas,
- Collection<T> nodes) {
- this.hashFunction = hashFunction;
- this.numberOfReplicas = numberOfReplicas;
-
- for (T node : nodes) {
- add(node);
- }
- }
-
- public void add(T node) {
- for (int i = 0; i < numberOfReplicas; i++) {
- circle.put(hashFunction.hash(node.toString() + i), node);
- }
- }
-
- public void remove(T node) {
- for (int i = 0; i < numberOfReplicas; i++) {
- circle.remove(hashFunction.hash(node.toString() + i));
- }
- }
-
- public T get(Object key) {
- if (circle.isEmpty()) {
- return null;
- }
- int hash = hashFunction.hash(key);
-
- if (!circle.containsKey(hash)) {
- SortedMap<Integer, T> tailMap = circle.tailMap(hash);
- hash = tailMap.isEmpty() ? circle.firstKey() : tailMap.firstKey();
- }
-
- return circle.get(hash);
- }
-
- public static void main(String[] args) {
- HashSet<String> set = new HashSet<String>();
- set.add("A");
- set.add("B");
- set.add("C");
- set.add("D");
- Map<String, Integer> map = new HashMap<String, Integer>();
-
- ConsistentHash<String> consistentHash = new ConsistentHash<String>(
- new HashFunction(), 1000, set);
-
- int count = 10000;
- for (int i = 0; i < count; i++) {
-
- String key = consistentHash.get(i);
-
-
- if (map.containsKey(key)) {
- map.put(consistentHash.get(i), map.get(key) + 1);
- } else {
- map.put(consistentHash.get(i), 1);
- }
- }
- showServer(map);
- map.clear();
-
- consistentHash.remove("A");
- System.out.println("<<<< remove server A >>>>");
- for (int i = 0; i < count; i++) {
- String key = consistentHash.get(i);
- if (map.containsKey(key)) {
- map.put(consistentHash.get(i), map.get(key) + 1);
- } else {
- map.put(consistentHash.get(i), 1);
- }
- }
- showServer(map);
- map.clear();
- consistentHash.add("E");
- System.out.println("<<<< add server E >>>>");
- for (int i = 0; i < count; i++) {
- String key = consistentHash.get(i);
- if (map.containsKey(key)) {
- map.put(consistentHash.get(i), map.get(key) + 1);
- } else {
- map.put(consistentHash.get(i), 1);
- }
- }
- showServer(map);
- map.clear();
- consistentHash.add("F");
- System.out.println("<<<< add server F,緩存數量加倍 >>>>");
- count = count * 2;
- for (int i = 0; i < count; i++) {
- String key = consistentHash.get(i);
- if (map.containsKey(key)) {
- map.put(consistentHash.get(i), map.get(key) + 1);
- } else {
- map.put(consistentHash.get(i), 1);
- }
- }
- showServer(map);
- }
-
- public static void showServer(Map<String, Integer> map) {
- for (Entry<String, Integer> m : map.entrySet()) {
- System.out.println("server " + m.getKey() + " : " + m.getValue()
- + "個");
- }
- }
-
- static class HashFunction {
- int hash(Object key) {
- return Md5Encrypt.md5(key.toString()).hashCode();
- }
- }
- }
代碼中用了的MD5方法以下:
- public class Md5Encrypt {
-
- private static final char[] DIGITS = { '0', '1', '2', '3', '4', '5', '6',
- '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f' };
-
-
- public static String md5(String text) {
- MessageDigest msgDigest = null;
- try {
- msgDigest = MessageDigest.getInstance("MD5");
- } catch (NoSuchAlgorithmException e) {
- throw new IllegalStateException(
- "System doesn't support MD5 algorithm.");
- }
- try {
- msgDigest.update(text.getBytes("utf-8"));
- } catch (UnsupportedEncodingException e) {
- throw new IllegalStateException(
- "System doesn't support your EncodingException.");
- }
- byte[] bytes = msgDigest.digest();
- String md5Str = new String(encodeHex(bytes));
- return md5Str;
- }
-
- public static char[] encodeHex(byte[] data) {
- int l = data.length;
- char[] out = new char[l << 1];
-
- for (int i = 0, j = 0; i < l; i++) {
- out[j++] = DIGITS[(0xF0 & data[i]) >>> 4];
- out[j++] = DIGITS[0x0F & data[i]];
- }
- return out;
- }
- }
代碼輸出的結果以下,能看得出來每臺服務器均勻地保存數據:
- server D : 2487個
- server A : 2675個
- server B : 2373個
- server C : 2465個
- <<<< remove server A >>>>
- server D : 3417個
- server B : 3148個
- server C : 3435個
- <<<< add server E >>>>
- server D : 2486個
- server E : 2522個
- server B : 2460個
- server C : 2532個
- <<<< add server F,緩存數量加倍 >>>>
- server D : 3994個
- server E : 4102個
- server F : 4014個
- server B : 3937個
- server C : 3953個