Java集合：HashMap源碼剖析

時間 2019-11-13

標籤 java 集合 hashmap 源碼剖析欄目 Java 简体版

原文原文鏈接

1、HashMap概述
2、HashMap的數據結構
3、HashMap源碼分析
一、關鍵屬性
二、構造方法
三、存儲數據
四、調整大小html

1、HashMap概述

　　HashMap基於哈希表的 Map 接口的實現。此實現提供全部可選的映射操做，並容許使用 null 值和 null 鍵。（除了不一樣步和容許使用 null 以外，HashMap 類與 Hashtable 大體相同。）此類不保證映射的順序，特別是它不保證該順序恆久不變。數組

　　值得注意的是HashMap不是線程安全的，若是想要線程安全的HashMap，能夠經過Collections類的靜態方法synchronizedMap得到線程安全的HashMap。安全

 Map map = Collections.synchronizedMap(new HashMap());

2、HashMap的數據結構

　　HashMap的底層主要是基於數組和鏈表來實現的，它之因此有至關快的查詢速度主要是由於它是經過計算散列碼來決定存儲的位置。HashMap中主要是經過key的hashCode來計算hash值的，只要hashCode相同，計算出來的hash值就同樣。若是存儲的對象對多了，就有可能不一樣的對象所算出來的hash值是相同的，這就出現了所謂的hash衝突。學過數據結構的同窗都知道，解決hash衝突的方法有不少，HashMap底層是經過鏈表來解決hash衝突的。數據結構

圖中，0~15部分即表明哈希表，也稱爲哈希數組，數組的每一個元素都是一個單鏈表的頭節點，鏈表是用來解決衝突的，若是不一樣的key映射到了數組的同一位置處，就將其放入單鏈表中。併發

從上圖咱們能夠發現哈希表是由數組+鏈表組成的，一個長度爲16的數組中，每一個元素存儲的是一個鏈表的頭結點Bucket桶。那麼這些元素是按照什麼樣的規則存儲到數組中呢。通常狀況是經過hash(key)%len得到，也就是元素的key的哈希值對數組長度取模獲得。好比上述哈希表中，12%16=12,28%16=12,108%16=12,140%16=12。因此十二、2八、108以及140都存儲在數組下標爲12的位置。

HashMap其實也是一個線性的數組實現的,因此能夠理解爲其存儲數據的容器就是一個線性數組。這可能讓咱們很不解，一個線性的數組怎麼實現按鍵值對來存取數據呢？這裏HashMap有作一些處理。

　　首先HashMap裏面實現一個靜態內部類Entry，其重要的屬性有 key , value, next，從屬性key,value咱們就能很明顯的看出來Entry就是HashMap鍵值對實現的一個基礎bean，咱們上面說到HashMap的基礎就是一個線性數組，這個數組就是Entry[]，Map裏面的內容都保存在Entry[]裏面。

咱們看看HashMap中Entry類的代碼：app

    /** Entry是單向鏈表。 * 它是 「HashMap鏈式存儲法」對應的鏈表。 *它實現了Map.Entry 接口，即實現getKey(), getValue(), setValue(V value), equals(Object o), hashCode()這些函數 **/ static class Entry<K,V> implements Map.Entry<K,V> { final K key; V value; // 指向下一個節點 
        Entry<K,V> next; final int hash; // 構造函數。 // 輸入參數包括"哈希值(h)", "鍵(k)", "值(v)", "下一節點(n)" 
        Entry(int h, K k, V v, Entry<K,V> n) { value = v; next = n; key = k; hash = h; } public final K getKey() { return key; } public final V getValue() { return value; } public final V setValue(V newValue) { V oldValue = value; value = newValue; return oldValue; } // 判斷兩個Entry是否相等 // 若兩個Entry的「key」和「value」都相等，則返回true。 // 不然，返回false 
 public final boolean equals(Object o) { if (!(o instanceof Map.Entry)) return false; Map.Entry e = (Map.Entry)o; Object k1 = getKey(); Object k2 = e.getKey(); if (k1 == k2 || (k1 != null && k1.equals(k2))) { Object v1 = getValue(); Object v2 = e.getValue(); if (v1 == v2 || (v1 != null && v1.equals(v2))) return true; } return false; } // 實現hashCode() 
        public final int hashCode() { return (key==null   ? 0 : key.hashCode()) ^ (value==null ? 0 : value.hashCode()); } public final String toString() { return getKey() + "=" + getValue(); } // 當向HashMap中添加元素時，繪調用recordAccess()。 // 這裏不作任何處理 
        void recordAccess(HashMap<K,V> m) { } // 當從HashMap中刪除元素時，繪調用recordRemoval()。 // 這裏不作任何處理 
        void recordRemoval(HashMap<K,V> m) { } }

HashMap其實就是一個Entry數組，Entry對象中包含了鍵和值，其中next也是一個Entry對象，它就是用來處理hash衝突的，造成一個鏈表。函數

3、HashMap源碼分析

一、關鍵屬性

　　先看看HashMap類中的一些關鍵屬性：源碼分析

 transient Entry[] table;//存儲元素的實體數組
  
 transient int size;//存放元素的個數
  
 int threshold; //臨界值 當實際大小超過臨界值時，會進行擴容threshold = 加載因子*容量
 
 final float loadFactor; //加載因子
  
 transient int modCount;//被修改的次數

其中loadFactor加載因子是表示Hsah表中元素的填滿的程度.

若:加載因子越大,填滿的元素越多,好處是,空間利用率高了,但:衝突的機會加大了.鏈表長度會愈來愈長,查找效率下降。

反之,加載因子越小,填滿的元素越少,好處是:衝突的機會減少了,但:空間浪費多了.表中的數據將過於稀疏（不少空間還沒用，就開始擴容了）

衝突的機會越大,則查找的成本越高.

所以,必須在 "衝突的機會"與"空間利用率"之間尋找一種平衡與折衷. 這種平衡與折衷本質上是數據結構中有名的"時-空"矛盾的平衡與折衷.

　　若是機器內存足夠，而且想要提升查詢速度的話能夠將加載因子設置小一點；相反若是機器內存緊張，而且對查詢速度沒有什麼要求的話能夠將加載因子設置大一點。不過通常咱們都不用去設置它，讓它取默認值0.75就行了。

二、構造方法

下面看看HashMap的幾個構造方法：

public HashMap(int initialCapacity, float loadFactor) {          //確保數字合法
          if (initialCapacity < 0)              throw new IllegalArgumentException("Illegal initial capacity: " +
  initialCapacity);          if (initialCapacity > MAXIMUM_CAPACITY)              initialCapacity = MAXIMUM_CAPACITY;          if (loadFactor <= 0 || Float.isNaN(loadFactor))              throw new IllegalArgumentException("Illegal load factor: " +
 loadFactor);  
         // Find a power of 2 >= initialCapacity
         int capacity = 1;   //初始容量
         while (capacity < initialCapacity)   //確保容量爲2的n次冪，使capacity爲大於initialCapacity的最小的2的n次冪
             capacity <<= 1;  
         this.loadFactor = loadFactor;          threshold = (int)(capacity * loadFactor);          table = new Entry[capacity];  init();  }  
     public HashMap(int initialCapacity) {          this(initialCapacity, DEFAULT_LOAD_FACTOR);  }  
     public HashMap() {          this.loadFactor = DEFAULT_LOAD_FACTOR;          threshold = (int)(DEFAULT_INITIAL_CAPACITY * DEFAULT_LOAD_FACTOR);          table = new Entry[DEFAULT_INITIAL_CAPACITY];  init();      }

咱們能夠看到在構造HashMap的時候若是咱們指定了加載因子和初始容量的話就調用第一個構造方法，不然的話就是用默認的。默認初始容量爲16，默認加載因子爲0.75。咱們能夠看到上面代碼中13-15行，這段代碼的做用是確保容量爲2的n次冪，使capacity爲大於initialCapacity的最小的2的n次冪，至於爲何要把容量設置爲2的n次冪，咱們等下再看。

重點分析下HashMap中用的最多的兩個方法put和get

三、存儲數據

　　下面看看HashMap存儲數據的過程是怎樣的，首先看看HashMap的put方法：

public V put(K key, V value) { // 若「key爲null」，則將該鍵值對添加到table[0]中。
         if (key == null) return putForNullKey(value); // 若「key不爲null」，則計算該key的哈希值，而後將其添加到該哈希值對應的鏈表中。
         int hash = hash(key.hashCode()); //搜索指定hash值在對應table中的索引
         int i = indexFor(hash, table.length); // 循環遍歷Entry數組,若「該key」對應的鍵值對已經存在，則用新的value取代舊的value。而後退出！
         for (Entry<K,V> e = table[i]; e != null; e = e.next) { Object k; if (e.hash == hash && ((k = e.key) == key || key.equals(k))) { //若是key相同則覆蓋並返回舊值
                  V oldValue = e.value; e.value = value; e.recordAccess(this); return oldValue; } } //修改次數+1
         modCount++; //將key-value添加到table[i]處
 addEntry(hash, key, value, i); return null; }

上面程序中用到了一個重要的內部接口：Map.Entry，每一個 Map.Entry 其實就是一個 key-value 對。從上面程序中能夠看出：當系統決定存儲 HashMap 中的 key-value 對時，徹底沒有考慮 Entry 中的 value，僅僅只是根據 key 來計算並決定每一個 Entry 的存儲位置。這也說明了前面的結論：咱們徹底能夠把 Map 集合中的 value 當成 key 的附屬，當系統決定了 key 的存儲位置以後，value 隨之保存在那裏便可。

咱們慢慢的來分析這個函數，第2和3行的做用就是處理key值爲null的狀況，咱們看看putForNullKey(value)方法：

 private V putForNullKey(V value) {          for (Entry<K,V> e = table[0]; e != null; e = e.next) {              if (e.key == null) {   //若是有key爲null的對象存在，則覆蓋掉
                  V oldValue = e.value;                  e.value = value;                  e.recordAccess(this);                  return oldValue;  }  }          modCount++;          addEntry(0, null, value, 0); //若是鍵爲null的話，則hash值爲0
         return null;  }

注意：若是key爲null的話，hash值爲0，對象存儲在數組中索引爲0的位置。即table[0]

咱們再回去看看put方法中第4行，它是經過key的hashCode值計算hash碼，下面是計算hash碼的函數：

  //計算hash值的方法 經過鍵的hashCode來計算
     static int hash(int h) {          // This function ensures that hashCodes that differ only by
         // constant multiples at each bit position have a bounded
         // number of collisions (approximately 8 at default load factor).
         h ^= (h >>> 20) ^ (h >>> 12);          return h ^ (h >>> 7) ^ (h >>> 4);      }

獲得hash碼以後就會經過hash碼去計算出應該存儲在數組中的索引，計算索引的函數以下：

     static int indexFor(int h, int length) { //根據hash值和數組長度算出索引值
         return h & (length-1);  //這裏不能隨便算取，用hash&(length-1)是有緣由的，這樣能夠確保算出來的索引是在數組大小範圍內，不會超出
     }

這個咱們要重點說下，咱們通常對哈希表的散列很天然地會想到用hash值對length取模（即除法散列法），Hashtable中也是這樣實現的，這種方法基本能保證元素在哈希表中散列的比較均勻，但取模會用到除法運算，效率很低，HashMap中則經過h&(length-1)的方法來代替取模，一樣實現了均勻的散列，但效率要高不少，這也是HashMap對Hashtable的一個改進。

接下來，咱們分析下爲何哈希表的容量必定要是2的整數次冪。首先，length爲2的整數次冪的話，h&(length-1)就至關於對length取模，這樣便保證了散列的均勻，同時也提高了效率；其次，length爲2的整數次冪的話，爲偶數，這樣length-1爲奇數，奇數的最後一位是1，這樣便保證了h&(length-1)的最後一位可能爲0，也可能爲1（這取決於h的值），即與後的結果可能爲偶數，也可能爲奇數，這樣即可以保證散列的均勻性，而若是length爲奇數的話，很明顯length-1爲偶數，它的最後一位是0，這樣h&(length-1)的最後一位確定爲0，即只能爲偶數，這樣任何hash值都只會被散列到數組的偶數下標位置上，這便浪費了近一半的空間，所以，length取2的整數次冪，是爲了使不一樣hash值發生碰撞的機率較小，這樣就能使元素在哈希表中均勻地散列。

　　這看上去很簡單，其實比較有玄機的，咱們舉個例子來講明：

　　假設數組長度分別爲15和16，優化後的hash碼分別爲8和9，那麼&運算後的結果以下：

         h & (table.length-1)                     hash                             table.length-1
       8 & (15-1)：                                 1000                   &              1110                   =                1000
       9 & (15-1)：                                 1001                   &              1110                   =                1000
       -----------------------------------------------------------------------------------------------------------------------
       8 & (16-1)：                                 1000                   &              1111                   =                1000
       9 & (16-1)：                                 1001                   &              1111                   =                1001

　　從上面的例子中能夠看出：

　　當它們和15-1（1110）「與」的時候，產生了相同的結果，也就是說它們會定位到數組中的同一個位置上去，這就產生了碰撞，8和9會被放到數組中的同一個位置上造成鏈表，那麼查詢的時候就須要遍歷這個鏈表，獲得8或者9，這樣就下降了查詢的效率。同時，咱們也能夠發現，當數組長度爲15的時候，hash值會與15-1（1110）進行「與」，那麼最後一位永遠是0，而0001，0011，0101，1001，1011，0111，1101這幾個位置永遠都不能存放元素了，空間浪費至關大，更糟的是這種狀況中，數組可使用的位置比數組長度小了不少，這意味着進一步增長了碰撞的概率，減慢了查詢的效率！

　　而當數組長度爲16時，即爲2的n次方時，2n-1獲得的二進制數的每一個位上的值都爲1，這使得在低位上&時，獲得的和原hash的低位相同，加之hash(int h)方法對key的hashCode的進一步優化，加入了高位計算，就使得只有相同的hash值的兩個值纔會被放到數組中的同一個位置上造成鏈表。

　　因此說，當數組長度爲2的n次冪的時候，不一樣的key算得得index相同的概率較小，那麼數據在數組上分佈就比較均勻，也就是說碰撞的概率小，相對的，查詢的時候就不用遍歷某個位置上的鏈表，這樣查詢效率也就較高了。

根據上面 put 方法的源代碼能夠看出，當程序試圖將一個key-value對放入HashMap中時，程序首先根據該 key 的 hashCode() 返回值決定該 Entry 的存儲位置：

　　若是兩個 Entry 的 key 的 hashCode() 返回值相同，那它們的存儲位置相同。
　　若是這兩個 Entry 的 key 經過 equals 比較返回 true，新添加 Entry 的 value 將覆蓋集合中原有 Entry 的 value，但key不會覆蓋。　　
　　若是這兩個 Entry 的 key 經過 equals 比較返回 false，新添加的 Entry 將與集合中原有 Entry 造成 Entry 鏈，並且新添加的 Entry 位於 Entry 鏈的頭部——

　　具體說明繼續看 addEntry() 方法的說明。

 void addEntry(int hash, K key, V value, int bucketIndex) {          Entry<K,V> e = table[bucketIndex]; //若是要加入的位置有值，將該位置原先的值設置爲新entry的next,也就是新entry鏈表的下一個節點
         table[bucketIndex] = new Entry<>(hash, key, value, e);          if (size++ >= threshold) //若是大於臨界值就擴容
             resize(2 * table.length); //以2的倍數擴容
 }

參數bucketIndex就是indexFor函數計算出來的索引值，第2行代碼是取得數組中索引爲bucketIndex的Entry對象，第3行就是用hash、key、value構建一個新的Entry對象放到索引爲bucketIndex的位置，而且將該位置原先的對象設置爲新對象的next構成鏈表。

　　第4行和第5行就是判斷put後size是否達到了臨界值threshold，若是達到了臨界值就要進行擴容，HashMap擴容是擴爲原來的兩倍。

四、調整大小

resize()方法以下：

從新調整HashMap的大小，newCapacity是調整後的單位

     void resize(int newCapacity) {  Entry[] oldTable = table;  int oldCapacity = oldTable.length;  if (oldCapacity == MAXIMUM_CAPACITY) {  threshold = Integer.MAX_VALUE;  return;  }  Entry[] newTable = new Entry[newCapacity];  transfer(newTable);//用來將原先table的元素所有移到newTable裏面 table = newTable; //再將newTable賦值給table threshold = (int)(newCapacity * loadFactor);//從新計算臨界值 }

　　新建了一個HashMap的底層數組，上面代碼中第10行爲調用transfer方法，將HashMap的所有元素添加到新的HashMap中,並從新計算元素在新的數組中的索引位置

　　當HashMap中的元素愈來愈多的時候，hash衝突的概率也就愈來愈高，由於數組的長度是固定的。因此爲了提升查詢的效率，就要對HashMap的數組進行擴容，數組擴容這個操做也會出如今ArrayList中，這是一個經常使用的操做，而在HashMap數組擴容以後，最消耗性能的點就出現了：原數組中的數據必須從新計算其在新數組中的位置，並放進去，這就是resize。

那麼HashMap何時進行擴容呢？當HashMap中的元素個數超過數組大小*loadFactor時，就會進行數組擴容，loadFactor的默認值爲0.75，這是一個折中的取值。也就是說，默認狀況下，數組大小爲16，那麼當HashMap中元素個數超過16*0.75=12的時候，就把數組的大小擴展爲 2*16=32，即擴大一倍，而後從新計算每一個元素在數組中的位置，擴容是須要進行數組複製的，複製數組是很是消耗性能的操做，因此若是咱們已經預知HashMap中元素的個數，那麼預設元素的個數可以有效的提升HashMap的性能。

五、數據讀取

public V get(Object key) {     if (key == null)         return getForNullKey();     int hash = hash(key.hashCode());     for (Entry<K,V> e = table[indexFor(hash, table.length)];         e != null;         e = e.next) {  Object k;         if (e.hash == hash && ((k = e.key) == key || key.equals(k)))             return e.value;  }     return null; }

　　有了上面存儲時的hash算法做爲基礎，理解起來這段代碼就很容易了。從上面的源代碼中能夠看出：從HashMap中get元素時，首先計算key的hashCode，找到數組中對應位置的某一元素，而後經過key的equals方法在對應位置的鏈表中找到須要的元素。

　　概括起來簡單地說，HashMap 在底層將 key-value 當成一個總體進行處理，這個總體就是一個 Entry 對象。HashMap 底層採用一個 Entry[] 數組來保存全部的 key-value 對，當須要存儲一個 Entry 對象時，會根據hash算法來決定其在數組中的存儲位置，在根據equals方法決定其在該數組位置上的鏈表中的存儲位置；當須要取出一個Entry時，也會根據hash算法找到其在數組中的存儲位置，再根據equals方法從該位置上的鏈表中取出該Entry。

六、HashMap的性能參數：

HashMap 包含以下幾個構造器：

HashMap()：構建一個初始容量爲 16，負載因子爲 0.75 的 HashMap。

HashMap(int initialCapacity)：構建一個初始容量爲 initialCapacity，負載因子爲 0.75 的 HashMap。

HashMap(int initialCapacity, float loadFactor)：以指定初始容量、指定的負載因子建立一個 HashMap。

HashMap的基礎構造器HashMap(int initialCapacity, float loadFactor)帶有兩個參數，它們是初始容量initialCapacity和加載因子loadFactor。

initialCapacity：HashMap的最大容量，即爲底層數組的長度。

loadFactor：負載因子loadFactor定義爲：散列表的實際元素數目(n)/ 散列表的容量(m)。

負載因子衡量的是一個散列表的空間的使用程度，負載因子越大表示散列表的裝填程度越高，反之愈小。對於使用鏈表法的散列表來講，查找一個元素的平均時間是O(1+a)，所以若是負載因子越大，對空間的利用更充分，然然後果是查找效率的下降；若是負載因子過小，那麼散列表的數據將過於稀疏，對空間形成嚴重浪費。

HashMap的實現中，經過threshold字段來判斷HashMap的最大容量：

threshold = (int)(capacity * loadFactor);

結合負載因子的定義公式可知，threshold就是在此loadFactor和capacity對應下容許的最大元素數目，超過這個數目就從新resize，以下降實際的負載因子。默認的的負載因子0.75是對空間和時間效率的一個平衡選擇。當容量超出此最大容量時， resize後的HashMap容量是容量的兩倍：

if (size++ >= threshold) resize(2 * table.length);

七、Fail-Fast機制：

咱們知道java.util.HashMap不是線程安全的，所以若是在使用迭代器的過程當中有其餘線程修改了map，那麼將拋出ConcurrentModificationException，這就是所謂fail-fast策略。

這一策略在源碼中的實現是經過modCount域，modCount顧名思義就是修改次數，對HashMap內容的修改都將增長這個值，那麼在迭代器初始化過程當中會將這個值賦給迭代器的expectedModCount。

private abstract class HashIterator<E> implements Iterator<E> { Entry<K,V> next;    // next entry to return
        int expectedModCount;    // For fast-fail
        int index;        // current slot
        Entry<K,V> current;    // current entry
 HashIterator() { expectedModCount = modCount; if (size > 0) { // advance to first entry
                Entry[] t = table; while (index < t.length && (next = t[index++]) == null) ; } } public final boolean hasNext() { return next != null; } final Entry<K,V> nextEntry() { if (modCount != expectedModCount) throw new ConcurrentModificationException(); Entry<K,V> e = next; if (e == null) throw new NoSuchElementException(); if ((next = e.next) == null) { Entry[] t = table; while (index < t.length && (next = t[index++]) == null) ; } current = e; return e; } public void remove() { if (current == null) throw new IllegalStateException(); if (modCount != expectedModCount) throw new ConcurrentModificationException(); Object k = current.key; current = null; HashMap.this.removeEntryForKey(k); expectedModCount = modCount; } }

在迭代過程當中，判斷modCount跟expectedModCount是否相等，若是不相等就表示已經有其餘線程修改了Map：

注意到modCount聲明爲volatile，保證線程之間修改的可見性。

final Entry<K,V> nextEntry() {     if (modCount != expectedModCount)         throw new ConcurrentModificationException();

在HashMap的API中指出：

由全部HashMap類的「collection 視圖方法」所返回的迭代器都是快速失敗的：在迭代器建立以後，若是從結構上對映射進行修改，除非經過迭代器自己的 remove 方法，其餘任什麼時候間任何方式的修改，迭代器都將拋出 ConcurrentModificationException。所以，面對併發的修改，迭代器很快就會徹底失敗，而不冒在未來不肯定的時間發生任意不肯定行爲的風險。

注意，迭代器的快速失敗行爲不能獲得保證，通常來講，存在非同步的併發修改時，不可能做出任何堅定的保證。快速失敗迭代器盡最大努力拋出 ConcurrentModificationException。所以，編寫依賴於此異常的程序的作法是錯誤的，正確作法是：迭代器的快速失敗行爲應該僅用於檢測程序錯誤