java基礎:HashMap — 源碼分析

其餘更多java基礎文章: java基礎學習(目錄)java


學習資料
HashMap 源碼詳細分析(JDK1.8)
Java 8系列之從新認識HashMap
Java集合:HashMap詳解(JDK 1.8)node

本文將不講紅黑樹相關的內容,由於我本身也還沒弄懂,下一步將算法和數據結構看完後,會寫一篇源碼分析(二)做爲後續。程序員

摘要

HashMap是Java程序員使用頻率最高的用於映射(鍵值對)處理的數據類型。隨着JDK(Java Developmet Kit)版本的更新,JDK1.8對HashMap底層的實現進行了優化,例如引入紅黑樹的數據結構和擴容的優化等。本文結合JDK1.7和JDK1.8的區別,深刻探討HashMap的結構實現和功能原理。算法

簡介

Java爲數據結構中的映射定義了一個接口java.util.Map,此接口主要有四個經常使用的實現類,分別是HashMap、Hashtable、LinkedHashMap和TreeMap,類繼承關係以下圖所示:數組

image

下面針對各個實現類的特色作一些說明:安全

(1) HashMap:它根據鍵的hashCode值存儲數據,大多數狀況下能夠直接定位到它的值,於是具備很快的訪問速度,但遍歷順序倒是不肯定的。 HashMap最多隻容許一條記錄的鍵爲null,容許多條記錄的值爲null。HashMap非線程安全,即任一時刻能夠有多個線程同時寫HashMap,可能會致使數據的不一致。若是須要知足線程安全,能夠用 Collections的synchronizedMap方法使HashMap具備線程安全的能力,或者使用ConcurrentHashMap。bash

(2) Hashtable:Hashtable是遺留類,不少映射的經常使用功能與HashMap相似,不一樣的是它承自Dictionary類,而且是線程安全的,任一時間只有一個線程能寫Hashtable,併發性不如ConcurrentHashMap,由於ConcurrentHashMap引入了分段鎖。Hashtable不建議在新代碼中使用,不須要線程安全的場合能夠用HashMap替換,須要線程安全的場合能夠用ConcurrentHashMap替換。數據結構

(3) LinkedHashMap:LinkedHashMap是HashMap的一個子類,保存了記錄的插入順序,在用Iterator遍歷LinkedHashMap時,先獲得的記錄確定是先插入的,也能夠在構造時帶參數,按照訪問次序排序。多線程

(4) TreeMap:TreeMap實現SortedMap接口,可以把它保存的記錄根據鍵排序,默認是按鍵值的升序排序,也能夠指定排序的比較器,當用Iterator遍歷TreeMap時,獲得的記錄是排過序的。若是使用排序的映射,建議使用TreeMap。在使用TreeMap時,key必須實現Comparable接口或者在構造TreeMap傳入自定義的Comparator,不然會在運行時拋出java.lang.ClassCastException類型的異常。併發

對於上述四種Map類型的類,要求映射中的key是不可變對象。不可變對象是該對象在建立後它的哈希值不會被改變。若是對象的哈希值發生變化,Map對象極可能就定位不到映射的位置了。

經過上面的比較,咱們知道了HashMap是Java的Map家族中一個普通成員,鑑於它能夠知足大多數場景的使用條件,因此是使用頻度最高的一個。下文咱們主要結合源碼,從存儲結構、經常使用方法分析、擴容以及安全性等方面深刻講解HashMap的工做原理。

內部實現

搞清楚HashMap,首先須要知道HashMap是什麼,即它的存儲結構-字段;其次弄明白它能幹什麼,即它的功能實現-方法。下面咱們針對這兩個方面詳細展開講解。

存儲結構

從結構實現來說,HashMap是數組+鏈表+紅黑樹(JDK1.8增長了紅黑樹部分)實現的,以下如所示。

HashMap結構圖

字段

咱們先了解一下HashMap的基礎字段和屬性

static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // 默認table容量16
static final int MAXIMUM_CAPACITY = 1 << 30; //容量最大值爲2的30次方
static final float DEFAULT_LOAD_FACTOR = 0.75f;//默認負載因子
static final int MIN_TREEIFY_CAPACITY = 64; //最小使用紅黑樹的容量

transient Node<K,V>[] table;//用於存放Node的數組
transient int size; //hashmap實際存儲的Node(鍵值對)個數
transient int modCount; //記錄HashMap內部結構發生變化的次數
int threshold; //HashMap所能容納的最大數據量的Node(鍵值對)個數
final float loadFactor;//負載因子
複製代碼

HashMap類中有一個很是重要的字段,就是 Node[] table,即哈希桶數組,明顯它是一個Node的數組。咱們來看Node[JDK1.8]是何物。

static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;    //用來定位數組索引位置
        final K key;
        V value;
        Node<K,V> next;   //鏈表的下一個node

        Node(int hash, K key, V value, Node<K,V> next) { ... }
        public final K getKey(){ ... }
        public final V getValue() { ... }
        public final String toString() { ... }
        public final int hashCode() { ... }
        public final V setValue(V newValue) { ... }
        public final boolean equals(Object o) { ... }
}
複製代碼

Node是HashMap的一個內部類,實現了Map.Entry接口,本質是就是一個映射(鍵值對)。上圖中的每一個黑色圓點就是一個Node對象。

Node[] table的初始化長度length(默認值是16),loadFactor爲負載因子(默認值是0.75),threshold是HashMap所能容納的最大數據量的Node(鍵值對)個數。threshold = length * Load factor。也就是說,在數組定義好長度以後,負載因子越大,所能容納的鍵值對個數越多。

結合負載因子的定義公式可知,threshold就是在此Load factor和length(數組長度)對應下容許的最大元素數目,超過這個數目就從新resize(擴容),擴容後的HashMap容量是以前容量的兩倍。默認的負載因子0.75是對空間和時間效率的一個平衡選擇,建議你們不要修改,除非在時間和空間比較特殊的狀況下,若是內存空間不少而又對時間效率要求很高,能夠下降負載因子Load factor的值;相反,若是內存空間緊張而對時間效率要求不高,能夠增長負載因子loadFactor的值,這個值能夠大於1。

size這個字段其實很好理解,就是HashMap中實際存在的鍵值對數量。注意和table的長度length、容納最大鍵值對數量threshold的區別。而modCount字段主要用來記錄HashMap內部結構發生變化的次數,主要用於迭代的快速失敗。強調一點,內部結構發生變化指的是結構發生變化,例如put新鍵值對,可是某個key對應的value值被覆蓋不屬於結構變化。

方法細節

定位哈希桶數組索引位置

無論增長、刪除、查找鍵值對,定位到哈希桶數組的位置都是很關鍵的第一步。前面說過HashMap的數據結構是「數組+鏈表+紅黑樹」的結合,因此咱們固然但願這個HashMap裏面的元素位置儘可能分佈均勻些,儘可能使得每一個位置上的元素數量只有一個,那麼當咱們用hash算法求得這個位置的時候,立刻就能夠知道對應位置的元素就是咱們要的,不用遍歷鏈表/紅黑樹,大大優化了查詢的效率。HashMap定位數組索引位置,直接決定了hash方法的離散性能。下面是定位哈希桶數組的源碼:

// 代碼1
static final int hash(Object key) { // 計算key的hash值
    int h;
    // 1.先拿到key的hashCode值; 2.將hashCode的高16位參與運算
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
// 代碼2
int n = tab.length;
// 將(tab.length - 1) 與 hash值進行&運算
int index = (n - 1) & hash;
複製代碼

整個過程本質上就是三步:

  • 拿到key的hashCode值
  • 將hashCode的高位參與運算,從新計算hash值
  • 將計算出來的hash值與(table.length - 1)進行&運算

對於任意給定的對象,只要它的hashCode()返回值相同,那麼計算獲得的hash值老是相同的。爲了使元素在數組桶table裏分佈均勻一點,咱們首先想到的就是把hash值對table長度取模運算

可是模運算消耗仍是比較大的,咱們知道計算機比較快的運算爲位運算,所以JDK團隊對取模運算進行了優化,使用上面代碼2的位與運算來代替模運算。這個方法很是巧妙,它經過 「(table.length -1) & h」 來獲得該對象的索引位置,這個優化是基於如下公式:x mod 2^n = x & (2^n - 1)。咱們知道HashMap底層數組的長度老是2的n次方,而且取模運算爲「h mod table.length」,對應上面的公式,能夠獲得該運算等同於**「h mod table.length = h & (table.length - 1)」**。這是HashMap在速度上的優化,由於&比%具備更高的效率。

在JDK1.8的實現中,還優化了高位運算的算法,將hashCode的高16位與hashCode進行異或運算,主要是爲了在table的length較小的時候,讓高位也參與運算,而且不會有太大的開銷。

下圖是一個簡單的例子,table長度爲16:

put方法

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}
 
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    // table是否爲空或者length等於0, 若是是則調用resize方法進行初始化
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;    
    // 經過hash值計算索引位置, 若是table表該索引位置節點爲空則新增一個
    if ((p = tab[i = (n - 1) & hash]) == null)// 將索引位置的頭節點賦值給p
        tab[i] = newNode(hash, key, value, null);
    else {  // table表該索引位置不爲空
        Node<K,V> e; K k;
        if (p.hash == hash && // 判斷p節點的hash值和key值是否跟傳入的hash值和key值相等
            ((k = p.key) == key || (key != null && key.equals(k)))) 
            e = p;  // 若是相等, 則p節點即爲要查找的目標節點,賦值給e
        // 判斷p節點是否爲TreeNode, 若是是則調用紅黑樹的putTreeVal方法查找目標節點
        else if (p instanceof TreeNode) 
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {	// 走到這表明p節點爲普通鏈表節點
            for (int binCount = 0; ; ++binCount) {  // 遍歷此鏈表, binCount用於統計節點數
                if ((e = p.next) == null) { // p.next爲空表明不存在目標節點則新增一個節點插入鏈表尾部
                    p.next = newNode(hash, key, value, null);
                    // 計算節點是否超過8個, 減一是由於循環是從p節點的下一個節點開始的
                    if (binCount >= TREEIFY_THRESHOLD - 1)
                        treeifyBin(tab, hash);// 若是超過8個,調用treeifyBin方法將該鏈表轉換爲紅黑樹
                    break;
                }
                if (e.hash == hash && // e節點的hash值和key值都與傳入的相等, 則e即爲目標節點,跳出循環
                    ((k = e.key) == key || (key != null && key.equals(k)))) 
                    break;
                p = e;  // 將p指向下一個節點
            }
        }
        // e不爲空則表明根據傳入的hash值和key值查找到了節點,將該節點的value覆蓋,返回oldValue
        if (e != null) { 
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e); // 用於LinkedHashMap
            return oldValue;
        }
    }
    ++modCount;
    if (++size > threshold) // 插入節點後超過閾值則進行擴容
        resize();
    afterNodeInsertion(evict);  // 用於LinkedHashMap
    return null;
}
複製代碼
  1. 校驗table是否爲空或者length等於0,若是是則調用resize方法進行初始化
  2. 經過hash值計算索引位置,將該索引位置的頭節點賦值給p節點,若是該索引位置節點爲空則使用傳入的參數新增一個節點並放在該索引位置
  3. 判斷p節點的key和hash值是否跟傳入的相等,若是相等, 則p節點即爲要查找的目標節點,將p節點賦值給e節點
  4. 若是p節點不是目標節點,則判斷p節點是否爲TreeNode,若是是則調用紅黑樹的putTreeVal方法查找目標節點
  5. 走到這表明p節點爲普通鏈表節點,則調用普通的鏈表方法進行查找,並定義變量binCount來統計該鏈表的節點數
  6. 若是p的next節點爲空時,則表明找不到目標節點,則新增一個節點並插入鏈表尾部,並校驗節點數是否超過8個,若是超過則調用treeifyBin方法將鏈表節點轉爲紅黑樹節點
  7. 若是遍歷的e節點存在hash值和key值都與傳入的相同,則e節點即爲目標節點,跳出循環
  8. 若是e節點不爲空,則表明目標節點存在,使用傳入的value覆蓋該節點的value,並返回oldValue
  9. 若是插入節點後節點數超過閾值,則調用resize方法進行擴容

resize方法

final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    if (oldCap > 0) {   // 老table不爲空
        if (oldCap >= MAXIMUM_CAPACITY) {      // 老table的容量超過最大容量值
            threshold = Integer.MAX_VALUE;  // 設置閾值爲Integer.MAX_VALUE
            return oldTab;
        }
        // 若是容量*2<最大容量而且>=16, 則將閾值設置爲原來的兩倍
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)   
            newThr = oldThr << 1; // double threshold
    }
    else if (oldThr > 0) // 老表的容量爲0, 老表的閾值大於0, 是由於初始容量被放入閾值
        newCap = oldThr;	// 則將新表的容量設置爲老表的閾值 
    else {	// 老表的容量爲0, 老表的閾值爲0, 則爲空表,設置默認容量和閾值
        newCap = DEFAULT_INITIAL_CAPACITY; 
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    if (newThr == 0) {  // 若是新表的閾值爲空, 則經過新的容量*負載因子得到閾值
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr; // 將當前閾值賦值爲剛計算出來的新的閾值
    @SuppressWarnings({"rawtypes","unchecked"})
    // 定義新表,容量爲剛計算出來的新容量
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab; // 將當前的表賦值爲新定義的表
    if (oldTab != null) {   // 若是老表不爲空, 則需遍歷將節點賦值給新表
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {  // 將索引值爲j的老表頭節點賦值給e
                oldTab[j] = null; // 將老表的節點設置爲空, 以便垃圾收集器回收空間
                // 若是e.next爲空, 則表明老表的該位置只有1個節點, 
                // 經過hash值計算新表的索引位置, 直接將該節點放在該位置
                if (e.next == null) 
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode)
                	 // 調用treeNode的hash分佈(跟下面最後一個else的內容幾乎相同)
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap); 
                else { // preserve order
                    Node<K,V> loHead = null, loTail = null; // 存儲跟原索引位置相同的節點
                    Node<K,V> hiHead = null, hiTail = null; // 存儲索引位置爲:原索引+oldCap的節點
                    Node<K,V> next;
                    do {
                        next = e.next;
                        //若是e的hash值與老表的容量進行與運算爲0,則擴容後的索引位置跟老表的索引位置同樣
                        if ((e.hash & oldCap) == 0) {   
                            if (loTail == null) // 若是loTail爲空, 表明該節點爲第一個節點
                                loHead = e; // 則將loHead賦值爲第一個節點
                            else    
                                loTail.next = e;    // 不然將節點添加在loTail後面
                            loTail = e; // 並將loTail賦值爲新增的節點
                        }
                        //若是e的hash值與老表的容量進行與運算爲1,則擴容後的索引位置爲:老表的索引位置+oldCap
                        else {  
                            if (hiTail == null) // 若是hiTail爲空, 表明該節點爲第一個節點
                                hiHead = e; // 則將hiHead賦值爲第一個節點
                            else
                                hiTail.next = e;    // 不然將節點添加在hiTail後面
                            hiTail = e; // 並將hiTail賦值爲新增的節點
                        }
                    } while ((e = next) != null);
                    if (loTail != null) {
                        loTail.next = null; // 最後一個節點的next設爲空
                        newTab[j] = loHead; // 將原索引位置的節點設置爲對應的頭結點
                    }
                    if (hiTail != null) {
                        hiTail.next = null; // 最後一個節點的next設爲空
                        newTab[j + oldCap] = hiHead; // 將索引位置爲原索引+oldCap的節點設置爲對應的頭結點
                    }
                }
            }
        }
    }
    return newTab;
}
複製代碼
  1. 若是老表的容量大於0,判斷老表的容量是否超過最大容量值:若是超過則將閾值設置爲Integer.MAX_VALUE,並直接返回老表(此時oldCap * 2比Integer.MAX_VALUE大,所以沒法進行從新分佈,只是單純的將閾值擴容到最大);若是容量 * 2小於最大容量而且不小於16,則將閾值設置爲原來的兩倍。
  2. 若是老表的容量爲0,老表的閾值大於0,這種狀況是傳了容量的new方法建立的空表,將新表的容量設置爲老表的閾值(這種狀況發生在新建立的HashMap第一次put時,該HashMap初始化的時候傳了初始容量,因爲HashMap並無capacity變量來存放容量值,所以傳進來的初始容量是存放在threshold變量上(查看HashMap(int initialCapacity, float loadFactor)方法),所以此時老表的threshold的值就是咱們要新建立的HashMap的capacity,因此將新表的容量設置爲老表的閾值。
  3. 若是老表的容量爲0,老表的閾值爲0,這種狀況是沒有傳容量的new方法建立的空表,將閾值和容量設置爲默認值。
  4. 若是新表的閾值爲空,則經過新的容量 * 負載因子得到閾值(這種狀況是初始化的時候傳了初始容量,跟第2點相同狀況,也只有走到第2點纔會走到該狀況)。
  5. 將當前閾值設置爲剛計算出來的新的閾值,定義新表,容量爲剛計算出來的新容量,將當前的表設置爲新定義的表。
  6. 若是老表不爲空,則需遍歷全部節點,將節點賦值給新表。
  7. 將老表上索引爲j的頭結點賦值給e節點,並將老表上索引爲j的節點設置爲空。
  8. 若是e的next節點爲空,則表明老表的該位置只有1個節點,經過hash值計算新表的索引位置,直接將該節點放在新表的該位置上。
  9. 若是e的next節點不爲空,而且e爲TreeNode,則調用split方法進行hash分佈。
  10. 若是e的next節點不爲空,而且e爲普通的鏈表節點,則進行普通的hash分佈。
  11. 若是e的hash值與老表的容量(爲一串只有1個爲2的二進制數,例如16爲0000 0000 0001 0000)進行位與運算爲0,則說明e節點擴容後的索引位置跟老表的索引位置同樣,進行鏈表拼接操做:若是loTail爲空,表明該節點爲第一個節點,則將loHead賦值爲該節點;不然將節點添加在loTail後面,並將loTail賦值爲新增的節點。
  12. 若是e的hash值與老表的容量(爲一串只有1個爲2的二進制數,例如16爲0000 0000 0001 0000)進行位與運算不爲0,則說明e節點擴容後的索引位置爲:老表的索引位置+oldCap,進行鏈表拼接操做:若是hiTail爲空,表明該節點爲第一個節點,則將hiHead賦值爲該節點;不然將節點添加在hiTail後面,並將hiTail賦值爲新增的節點。
  13. 老表節點從新hash分佈在新表結束後,若是loTail不爲空(說明老表的數據有分佈到新表上原索引位置的節點),則將最後一個節點的next設爲空,並將新表上原索引位置的節點設置爲對應的頭結點;若是hiTail不爲空(說明老表的數據有分佈到新表上原索引+oldCap位置的節點),則將最後一個節點的next設爲空,並將新表上索引位置爲原索引+oldCap的節點設置爲對應的頭結點。
  14. 返回新表。

看完以後可能有個疑問,爲何擴容後,節點的hash爲何只可能分佈在原索引位置與原索引+oldCap位置? 咱們來梳理一下,索引位置的計算主要有三步:**取key的hashCode值、高位運算、取模運算。**當咱們Node點不變時,第一第二步獲得的結果hashcode是不變的,那麼變化就在最後的取模運算h & (table.length - 1)。咱們知道數組桶table的擴容是2的倍數。舉個例子,假設老表的容量爲16,即oldCap=16,此時的table.length-1爲01111(其他高位0省略),擴容後新表容量爲16*2=32。擴容後的table.length-1爲11111(其他高位0省略)。此時的差別就在倒數第五位的數值。若是hashcode在倒數第5位爲0(下圖b的key1),則擴容後進行取模運算時,位置不變。反之若是hashcode在倒數第5位爲1(下圖b的key2),則與相比原來,增長了2^5(16),也就是oldCap的數值。

這就是JDK1.8相對於JDK1.7作的優化,順便提一下在JDK1.7中的邏輯,由於這部分有很多細節改動。

resize(JDK1.7)
void resize(int newCapacity) {   //傳入新的容量
     Entry[] oldTable = table;    //引用擴容前的Entry數組
     int oldCapacity = oldTable.length;         
     if (oldCapacity == MAXIMUM_CAPACITY) {  //擴容前的數組大小若是已經達到最大(2^30)了
         threshold = Integer.MAX_VALUE; //修改閾值爲int的最大值(2^31-1),這樣之後就不會擴容了
         return;
     }
  
     Entry[] newTable = new Entry[newCapacity];  //初始化一個新的Entry數組
     transfer(newTable);                         //!!將數據轉移到新的Entry數組裏
     table = newTable;                           //HashMap的table屬性引用新的Entry數組
     threshold = (int)(newCapacity * loadFactor);//修改閾值
 }

void transfer(Entry[] newTable) {
     Entry[] src = table;                   //src引用了舊的Entry數組
     int newCapacity = newTable.length;
     for (int j = 0; j < src.length; j++) { //遍歷舊的Entry數組
         Entry<K,V> e = src[j];             //取得舊Entry數組的每一個元素
         if (e != null) {
             src[j] = null;//釋放舊Entry數組的對象引用(for循環後,舊的Entry數組再也不引用任何對象)
             do {
                 Entry<K,V> next = e.next;
                 int i = indexFor(e.hash, newCapacity); //!!從新計算每一個元素在數組中的位置
                 e.next = newTable[i]; //標記[1]
                newTable[i] = e;      //將元素放在數組上
                 e = next;             //訪問下一個Entry鏈上的元素
             } while (e != null);
         }
     }
 }
複製代碼

newTable[i]的引用賦給了e.next,也就是使用了單鏈表的頭插入方式,同一位置上新元素總會被放在鏈表的頭部位置;這樣先放在一個索引上的元素終會被放到Entry鏈的尾部(若是發生了hash衝突的話)。 下面舉個例子說明下擴容過程。假設了咱們的hash算法就是簡單的用key mod 一下表的大小(也就是數組的長度)。其中的哈希桶數組table的size=2, 因此key = 三、七、5,put順序依次爲 五、七、3。在mod 2之後都衝突在table[1]這裏了。這裏假設負載因子 loadFactor=1,即當鍵值對的實際大小size 大於 table的實際大小時進行擴容。接下來的三個步驟是哈希桶數組 resize成4,而後全部的Node從新rehash的過程。

JDK1.7擴容邏輯

由此能夠看出,JDK1.8的擴容並不會致使鏈表順序的倒序。並且JDK1.7擴容時致使的倒序還會在併發的多線程使用場景中使用HashMap可能形成死循環,這個在接下來的安全性中會詳細講。

get方法

public V get(Object key) {
    Node<K,V> e;
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}
 
final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    // table不爲空 && table長度大於0 && table索引位置(根據hash值計算出)不爲空
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {    
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k)))) 
            return first;	// first的key等於傳入的key則返回first對象
        if ((e = first.next) != null) { // 向下遍歷
            if (first instanceof TreeNode)  // 判斷是否爲TreeNode
            	// 若是是紅黑樹節點,則調用紅黑樹的查找目標節點方法getTreeNode
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            // 走到這表明節點爲鏈表節點
            do { // 向下遍歷鏈表, 直至找到節點的key和傳入的key相等時,返回該節點
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;    // 找不到符合的返回空
}
複製代碼
  1. 先對table進行校驗,校驗是否爲空,length是否大於0
  2. 使用table.length - 1和hash值進行位與運算,得出在table上的索引位置,將該索引位置的節點賦值給first節點,校驗該索引位置是否爲空
  3. 檢查first節點的hash值和key是否和入參的同樣,若是同樣則first即爲目標節點,直接返回first節點
  4. 若是first的next節點不爲空則繼續遍歷
  5. 若是first節點爲TreeNode,則調用getTreeNode方法(見下文代碼塊1)查找目標節點
  6. 若是first節點不爲TreeNode,則調用普通的遍歷鏈表方法查找目標節點
  7. 若是查找不到目標節點則返回空

安全性

在多線程使用場景中,應該儘可能避免使用線程不安全的HashMap,而使用線程安全的ConcurrentHashMap。那麼爲何說HashMap是線程不安全的,主要有兩個方面:
1. put的時候多線程致使的數據不一致
好比有兩個線程A和B,首先A但願插入一個key-value對到HashMap中,首先計算記錄所要落到的 hash桶的索引座標,而後獲取到該桶裏面的鏈表頭結點,此時線程A的時間片用完了,而此時線程B被調度得以執行,和線程A同樣執行,只不過線程B成功將記錄插到了桶裏面,假設線程A插入的記錄計算出來的 hash桶索引和線程B要插入的記錄計算出來的 hash桶索引是同樣的,那麼當線程B成功插入以後,線程A再次被調度運行時,它依然持有過時的鏈表頭可是它對此一無所知,以致於它認爲它應該這樣作,如此一來就覆蓋了線程B插入的記錄,這樣線程B插入的記錄就憑空消失了,形成了數據不一致的行爲。
2. resize而引發死循環(JDK1.8已經不會出現該問題)
這種狀況發生在JDK1.7 中HashMap自動擴容時,當2個線程同時檢測到元素個數超過 數組大小 × 負載因子。此時2個線程會在put()方法中調用了resize(),兩個線程同時修改一個鏈表結構會產生一個循環鏈表(JDK1.7中,會出現resize先後元素順序倒置的狀況)。接下來再想經過get()獲取某一個元素,就會出現死循環。 下面舉例子說明在併發的多線程使用場景中使用HashMap可能形成死循環。代碼例子以下:

public class HashMapInfiniteLoop {  

    private static HashMap<Integer,String> map = new HashMap<Integer,String>(2,0.75f);  
    public static void main(String[] args) {  
        map.put(5, "C");  

        new Thread("Thread1") {  
            public void run() {  
                map.put(7, "B");  
                System.out.println(map);  
            };  
        }.start();  
        new Thread("Thread2") {  
            public void run() {  
                map.put(3, "A");  
                System.out.println(map);  
            };  
        }.start();        
    }  
}

複製代碼

其中,map初始化爲一個長度爲2的數組,loadFactor=0.75,threshold=2*0.75=1,也就是說當put第二個key的時候,map就須要進行resize。

經過設置斷點讓線程1和線程2同時debug到transfer方法(3.3小節代碼塊)的首行。注意此時兩個線程已經成功添加數據。放開thread1的斷點至transfer方法的「Entry next = e.next;」 這一行;而後放開線程2的的斷點,讓線程2進行resize。結果以下圖。

注意,Thread1的 e 指向了key(3),而next指向了key(7),其在線程二rehash後,指向了線程二重組後的鏈表。

線程一被調度回來執行,先是執行 newTalbe[i] = e, 而後是e = next,致使了e指向了key(7),而下一次循環的next = e.next致使了next指向了key(3)。

e.next = newTable[i] 致使 key(3).next 指向了 key(7)。注意:此時的key(7).next 已經指向了key(3), 環形鏈表就這樣出現了。

因而,當咱們用線程一調用map.get(11)時,悲劇就出現了——Infinite Loop。

1.7和1.8的對比

HashMap中,若是key通過hash算法得出的數組索引位置所有不相同,即Hash算法很是好,那樣的話,getKey方法的時間複雜度就是O(1),若是Hash算法技術的結果碰撞很是多,假如Hash算極其差,全部的Hash算法結果得出的索引位置同樣,那樣全部的鍵值對都集中到一個桶中,或者在一個鏈表中,或者在一個紅黑樹中,時間複雜度分別爲O(n)和O(lgn)。 鑑於JDK1.8作了多方面的優化,整體性能優於JDK1.7。具體我就不在這方面贅述了,能夠看下美團大佬的文章,裏面有測試Java 8系列之從新認識HashMap

HashMap和HashTable對比

  1. HashMap容許key和value爲null,Hashtable不容許。
  2. HashMap的默認初始容量爲16,Hashtable爲11。
  3. HashMap的擴容爲原來的2倍,Hashtable的擴容爲原來的2倍加1。
  4. HashMap是非線程安全的,Hashtable是線程安全的。
  5. HashMap的hash值從新計算過,Hashtable直接使用hashCode。
  6. HashMap去掉了Hashtable中的contains方法。
  7. HashMap繼承自AbstractMap類,Hashtable繼承自Dictionary類。

總結

  1. HashMap的底層是個Node數組(Node<K,V>[] table),在數組的具體索引位置,若是存在多個節點,則多是以鏈表或紅黑樹的形式存在。
  2. 增長、刪除、查找鍵值對時,定位到哈希桶數組的位置是很關鍵的一步,源碼中是經過下面3個操做來完成這一步:1)拿到key的hashCode值;2)將hashCode的高位參與運算,從新計算hash值;3)將計算出來的hash值與(table.length - 1)進行&運算。
  3. HashMap的默認初始容量(capacity)是16,capacity必須爲2的冪次方;默認負載因子(load factor)是0.75;實際能存放的節點個數(threshold,即觸發擴容的閾值)= capacity * load factor。
  4. HashMap在觸發擴容後,閾值會變爲原來的2倍,而且會進行重hash,重hash後索引位置index的節點的新分佈位置最多隻有兩個:原索引位置或原索引+oldCap位置。例如capacity爲16,索引位置5的節點擴容後,只可能分佈在新報索引位置5和索引位置21(5+16)。
  5. 當同一個索引位置的節點在增長後達到9個時,會觸發鏈表節點(Node)轉紅黑樹節點(TreeNode,間接繼承Node),轉成紅黑樹節點後,其實鏈表的結構還存在,經過next屬性維持。鏈表節點轉紅黑樹節點的具體方法爲源碼中的treeifyBin(Node<K,V>[] tab, int hash)方法。
  6. 當同一個索引位置的節點在移除後達到6個時,而且該索引位置的節點爲紅黑樹節點,會觸發紅黑樹節點轉鏈表節點。紅黑樹節點轉鏈表節點的具體方法爲源碼中的untreeify(HashMap<K,V> map)方法。 HashMap在JDK1.8以後再也不有死循環的問題,JDK1.8以前存在死循環的根本緣由是在擴容後同一索引位置的節點順序會反掉。
  7. 擴容是一個特別耗性能的操做,因此當程序員在使用HashMap的時候,估算map的大小,初始化的時候給一個大體的數值,避免map進行頻繁的擴容。
  8. 負載因子是能夠修改的,也能夠大於1,可是建議不要輕易修改,除非狀況很是特殊。
  9. HashMap是線程不安全的,不要在併發的環境中同時操做HashMap,建議使用ConcurrentHashMap。
相關文章
相關標籤/搜索