其餘更多java基礎文章: java基礎學習(目錄)java
學習資料
HashMap 源碼詳細分析(JDK1.8)
Java 8系列之從新認識HashMap
Java集合:HashMap詳解(JDK 1.8)node
本文將不講紅黑樹相關的內容,由於我本身也還沒弄懂,下一步將算法和數據結構看完後,會寫一篇源碼分析(二)做爲後續。程序員
HashMap是Java程序員使用頻率最高的用於映射(鍵值對)處理的數據類型。隨着JDK(Java Developmet Kit)版本的更新,JDK1.8對HashMap底層的實現進行了優化,例如引入紅黑樹的數據結構和擴容的優化等。本文結合JDK1.7和JDK1.8的區別,深刻探討HashMap的結構實現和功能原理。算法
Java爲數據結構中的映射定義了一個接口java.util.Map,此接口主要有四個經常使用的實現類,分別是HashMap、Hashtable、LinkedHashMap和TreeMap,類繼承關係以下圖所示:數組
下面針對各個實現類的特色作一些說明:安全
(1) HashMap:它根據鍵的hashCode值存儲數據,大多數狀況下能夠直接定位到它的值,於是具備很快的訪問速度,但遍歷順序倒是不肯定的。 HashMap最多隻容許一條記錄的鍵爲null,容許多條記錄的值爲null。HashMap非線程安全,即任一時刻能夠有多個線程同時寫HashMap,可能會致使數據的不一致。若是須要知足線程安全,能夠用 Collections的synchronizedMap方法使HashMap具備線程安全的能力,或者使用ConcurrentHashMap。bash
(2) Hashtable:Hashtable是遺留類,不少映射的經常使用功能與HashMap相似,不一樣的是它承自Dictionary類,而且是線程安全的,任一時間只有一個線程能寫Hashtable,併發性不如ConcurrentHashMap,由於ConcurrentHashMap引入了分段鎖。Hashtable不建議在新代碼中使用,不須要線程安全的場合能夠用HashMap替換,須要線程安全的場合能夠用ConcurrentHashMap替換。數據結構
(3) LinkedHashMap:LinkedHashMap是HashMap的一個子類,保存了記錄的插入順序,在用Iterator遍歷LinkedHashMap時,先獲得的記錄確定是先插入的,也能夠在構造時帶參數,按照訪問次序排序。多線程
(4) TreeMap:TreeMap實現SortedMap接口,可以把它保存的記錄根據鍵排序,默認是按鍵值的升序排序,也能夠指定排序的比較器,當用Iterator遍歷TreeMap時,獲得的記錄是排過序的。若是使用排序的映射,建議使用TreeMap。在使用TreeMap時,key必須實現Comparable接口或者在構造TreeMap傳入自定義的Comparator,不然會在運行時拋出java.lang.ClassCastException類型的異常。併發
對於上述四種Map類型的類,要求映射中的key是不可變對象。不可變對象是該對象在建立後它的哈希值不會被改變。若是對象的哈希值發生變化,Map對象極可能就定位不到映射的位置了。
經過上面的比較,咱們知道了HashMap是Java的Map家族中一個普通成員,鑑於它能夠知足大多數場景的使用條件,因此是使用頻度最高的一個。下文咱們主要結合源碼,從存儲結構、經常使用方法分析、擴容以及安全性等方面深刻講解HashMap的工做原理。
搞清楚HashMap,首先須要知道HashMap是什麼,即它的存儲結構-字段;其次弄明白它能幹什麼,即它的功能實現-方法。下面咱們針對這兩個方面詳細展開講解。
從結構實現來說,HashMap是數組+鏈表+紅黑樹(JDK1.8增長了紅黑樹部分)實現的,以下如所示。
咱們先了解一下HashMap的基礎字段和屬性
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // 默認table容量16
static final int MAXIMUM_CAPACITY = 1 << 30; //容量最大值爲2的30次方
static final float DEFAULT_LOAD_FACTOR = 0.75f;//默認負載因子
static final int MIN_TREEIFY_CAPACITY = 64; //最小使用紅黑樹的容量
transient Node<K,V>[] table;//用於存放Node的數組
transient int size; //hashmap實際存儲的Node(鍵值對)個數
transient int modCount; //記錄HashMap內部結構發生變化的次數
int threshold; //HashMap所能容納的最大數據量的Node(鍵值對)個數
final float loadFactor;//負載因子
複製代碼
HashMap類中有一個很是重要的字段,就是 Node[] table,即哈希桶數組,明顯它是一個Node的數組。咱們來看Node[JDK1.8]是何物。
static class Node<K,V> implements Map.Entry<K,V> {
final int hash; //用來定位數組索引位置
final K key;
V value;
Node<K,V> next; //鏈表的下一個node
Node(int hash, K key, V value, Node<K,V> next) { ... }
public final K getKey(){ ... }
public final V getValue() { ... }
public final String toString() { ... }
public final int hashCode() { ... }
public final V setValue(V newValue) { ... }
public final boolean equals(Object o) { ... }
}
複製代碼
Node
是HashMap的一個內部類,實現了Map.Entry接口,本質是就是一個映射(鍵值對)。上圖中的每一個黑色圓點就是一個Node對象。
Node[] table的
初始化長度length(默認值是16),loadFactor
爲負載因子(默認值是0.75),threshold
是HashMap所能容納的最大數據量的Node(鍵值對)個數。threshold = length * Load factor
。也就是說,在數組定義好長度以後,負載因子越大,所能容納的鍵值對個數越多。
結合負載因子的定義公式可知,threshold
就是在此Load factor和length(數組長度)對應下容許的最大元素數目,超過這個數目就從新resize(擴容),擴容後的HashMap容量是以前容量的兩倍。默認的負載因子0.75是對空間和時間效率的一個平衡選擇,建議你們不要修改,除非在時間和空間比較特殊的狀況下,若是內存空間不少而又對時間效率要求很高,能夠下降負載因子Load factor的值;相反,若是內存空間緊張而對時間效率要求不高,能夠增長負載因子loadFactor的值,這個值能夠大於1。
size
這個字段其實很好理解,就是HashMap中實際存在的鍵值對數量。注意和table的長度length、容納最大鍵值對數量threshold的區別。而modCount字段主要用來記錄HashMap內部結構發生變化的次數,主要用於迭代的快速失敗。強調一點,內部結構發生變化指的是結構發生變化,例如put新鍵值對,可是某個key對應的value值被覆蓋不屬於結構變化。
無論增長、刪除、查找鍵值對,定位到哈希桶數組的位置都是很關鍵的第一步。前面說過HashMap的數據結構是「數組+鏈表+紅黑樹」的結合,因此咱們固然但願這個HashMap裏面的元素位置儘可能分佈均勻些,儘可能使得每一個位置上的元素數量只有一個,那麼當咱們用hash算法求得這個位置的時候,立刻就能夠知道對應位置的元素就是咱們要的,不用遍歷鏈表/紅黑樹,大大優化了查詢的效率。HashMap定位數組索引位置,直接決定了hash方法的離散性能。下面是定位哈希桶數組的源碼:
// 代碼1
static final int hash(Object key) { // 計算key的hash值
int h;
// 1.先拿到key的hashCode值; 2.將hashCode的高16位參與運算
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
// 代碼2
int n = tab.length;
// 將(tab.length - 1) 與 hash值進行&運算
int index = (n - 1) & hash;
複製代碼
整個過程本質上就是三步:
對於任意給定的對象,只要它的hashCode()返回值相同,那麼計算獲得的hash值老是相同的。爲了使元素在數組桶table裏分佈均勻一點,咱們首先想到的就是把hash值對table長度取模運算
可是模運算消耗仍是比較大的,咱們知道計算機比較快的運算爲位運算,所以JDK團隊對取模運算進行了優化,使用上面代碼2的位與運算來代替模運算。這個方法很是巧妙,它經過 「(table.length -1) & h」 來獲得該對象的索引位置,這個優化是基於如下公式:x mod 2^n = x & (2^n - 1)
。咱們知道HashMap底層數組的長度老是2的n次方,而且取模運算爲「h mod table.length」,對應上面的公式,能夠獲得該運算等同於**「h mod table.length = h & (table.length - 1)」**。這是HashMap在速度上的優化,由於&比%具備更高的效率。
在JDK1.8的實現中,還優化了高位運算的算法,將hashCode的高16位與hashCode進行異或運算,主要是爲了在table的length較小的時候,讓高位也參與運算,而且不會有太大的開銷。
下圖是一個簡單的例子,table長度爲16:
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
// table是否爲空或者length等於0, 若是是則調用resize方法進行初始化
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
// 經過hash值計算索引位置, 若是table表該索引位置節點爲空則新增一個
if ((p = tab[i = (n - 1) & hash]) == null)// 將索引位置的頭節點賦值給p
tab[i] = newNode(hash, key, value, null);
else { // table表該索引位置不爲空
Node<K,V> e; K k;
if (p.hash == hash && // 判斷p節點的hash值和key值是否跟傳入的hash值和key值相等
((k = p.key) == key || (key != null && key.equals(k))))
e = p; // 若是相等, 則p節點即爲要查找的目標節點,賦值給e
// 判斷p節點是否爲TreeNode, 若是是則調用紅黑樹的putTreeVal方法查找目標節點
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else { // 走到這表明p節點爲普通鏈表節點
for (int binCount = 0; ; ++binCount) { // 遍歷此鏈表, binCount用於統計節點數
if ((e = p.next) == null) { // p.next爲空表明不存在目標節點則新增一個節點插入鏈表尾部
p.next = newNode(hash, key, value, null);
// 計算節點是否超過8個, 減一是由於循環是從p節點的下一個節點開始的
if (binCount >= TREEIFY_THRESHOLD - 1)
treeifyBin(tab, hash);// 若是超過8個,調用treeifyBin方法將該鏈表轉換爲紅黑樹
break;
}
if (e.hash == hash && // e節點的hash值和key值都與傳入的相等, 則e即爲目標節點,跳出循環
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e; // 將p指向下一個節點
}
}
// e不爲空則表明根據傳入的hash值和key值查找到了節點,將該節點的value覆蓋,返回oldValue
if (e != null) {
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e); // 用於LinkedHashMap
return oldValue;
}
}
++modCount;
if (++size > threshold) // 插入節點後超過閾值則進行擴容
resize();
afterNodeInsertion(evict); // 用於LinkedHashMap
return null;
}
複製代碼
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) { // 老table不爲空
if (oldCap >= MAXIMUM_CAPACITY) { // 老table的容量超過最大容量值
threshold = Integer.MAX_VALUE; // 設置閾值爲Integer.MAX_VALUE
return oldTab;
}
// 若是容量*2<最大容量而且>=16, 則將閾值設置爲原來的兩倍
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0) // 老表的容量爲0, 老表的閾值大於0, 是由於初始容量被放入閾值
newCap = oldThr; // 則將新表的容量設置爲老表的閾值
else { // 老表的容量爲0, 老表的閾值爲0, 則爲空表,設置默認容量和閾值
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) { // 若是新表的閾值爲空, 則經過新的容量*負載因子得到閾值
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr; // 將當前閾值賦值爲剛計算出來的新的閾值
@SuppressWarnings({"rawtypes","unchecked"})
// 定義新表,容量爲剛計算出來的新容量
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab; // 將當前的表賦值爲新定義的表
if (oldTab != null) { // 若是老表不爲空, 則需遍歷將節點賦值給新表
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) { // 將索引值爲j的老表頭節點賦值給e
oldTab[j] = null; // 將老表的節點設置爲空, 以便垃圾收集器回收空間
// 若是e.next爲空, 則表明老表的該位置只有1個節點,
// 經過hash值計算新表的索引位置, 直接將該節點放在該位置
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)
// 調用treeNode的hash分佈(跟下面最後一個else的內容幾乎相同)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // preserve order
Node<K,V> loHead = null, loTail = null; // 存儲跟原索引位置相同的節點
Node<K,V> hiHead = null, hiTail = null; // 存儲索引位置爲:原索引+oldCap的節點
Node<K,V> next;
do {
next = e.next;
//若是e的hash值與老表的容量進行與運算爲0,則擴容後的索引位置跟老表的索引位置同樣
if ((e.hash & oldCap) == 0) {
if (loTail == null) // 若是loTail爲空, 表明該節點爲第一個節點
loHead = e; // 則將loHead賦值爲第一個節點
else
loTail.next = e; // 不然將節點添加在loTail後面
loTail = e; // 並將loTail賦值爲新增的節點
}
//若是e的hash值與老表的容量進行與運算爲1,則擴容後的索引位置爲:老表的索引位置+oldCap
else {
if (hiTail == null) // 若是hiTail爲空, 表明該節點爲第一個節點
hiHead = e; // 則將hiHead賦值爲第一個節點
else
hiTail.next = e; // 不然將節點添加在hiTail後面
hiTail = e; // 並將hiTail賦值爲新增的節點
}
} while ((e = next) != null);
if (loTail != null) {
loTail.next = null; // 最後一個節點的next設爲空
newTab[j] = loHead; // 將原索引位置的節點設置爲對應的頭結點
}
if (hiTail != null) {
hiTail.next = null; // 最後一個節點的next設爲空
newTab[j + oldCap] = hiHead; // 將索引位置爲原索引+oldCap的節點設置爲對應的頭結點
}
}
}
}
}
return newTab;
}
複製代碼
看完以後可能有個疑問,爲何擴容後,節點的hash爲何只可能分佈在原索引位置與原索引+oldCap位置? 咱們來梳理一下,索引位置的計算主要有三步:**取key的hashCode值、高位運算、取模運算。**當咱們Node點不變時,第一第二步獲得的結果hashcode是不變的,那麼變化就在最後的取模運算h & (table.length - 1)
。咱們知道數組桶table的擴容是2的倍數。舉個例子,假設老表的容量爲16,即oldCap=16,此時的table.length-1爲01111(其他高位0省略),擴容後新表容量爲16*2=32。擴容後的table.length-1爲11111(其他高位0省略)。此時的差別就在倒數第五位的數值。若是hashcode在倒數第5位爲0(下圖b的key1),則擴容後進行取模運算時,位置不變。反之若是hashcode在倒數第5位爲1(下圖b的key2),則與相比原來,增長了2^5(16),也就是oldCap的數值。
這就是JDK1.8相對於JDK1.7作的優化,順便提一下在JDK1.7中的邏輯,由於這部分有很多細節改動。
void resize(int newCapacity) { //傳入新的容量
Entry[] oldTable = table; //引用擴容前的Entry數組
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) { //擴容前的數組大小若是已經達到最大(2^30)了
threshold = Integer.MAX_VALUE; //修改閾值爲int的最大值(2^31-1),這樣之後就不會擴容了
return;
}
Entry[] newTable = new Entry[newCapacity]; //初始化一個新的Entry數組
transfer(newTable); //!!將數據轉移到新的Entry數組裏
table = newTable; //HashMap的table屬性引用新的Entry數組
threshold = (int)(newCapacity * loadFactor);//修改閾值
}
void transfer(Entry[] newTable) {
Entry[] src = table; //src引用了舊的Entry數組
int newCapacity = newTable.length;
for (int j = 0; j < src.length; j++) { //遍歷舊的Entry數組
Entry<K,V> e = src[j]; //取得舊Entry數組的每一個元素
if (e != null) {
src[j] = null;//釋放舊Entry數組的對象引用(for循環後,舊的Entry數組再也不引用任何對象)
do {
Entry<K,V> next = e.next;
int i = indexFor(e.hash, newCapacity); //!!從新計算每一個元素在數組中的位置
e.next = newTable[i]; //標記[1]
newTable[i] = e; //將元素放在數組上
e = next; //訪問下一個Entry鏈上的元素
} while (e != null);
}
}
}
複製代碼
newTable[i]的引用賦給了e.next,也就是使用了單鏈表的頭插入方式,同一位置上新元素總會被放在鏈表的頭部位置;這樣先放在一個索引上的元素終會被放到Entry鏈的尾部(若是發生了hash衝突的話)。 下面舉個例子說明下擴容過程。假設了咱們的hash算法就是簡單的用key mod 一下表的大小(也就是數組的長度)。其中的哈希桶數組table的size=2, 因此key = 三、七、5,put順序依次爲 五、七、3。在mod 2之後都衝突在table[1]這裏了。這裏假設負載因子 loadFactor=1,即當鍵值對的實際大小size 大於 table的實際大小時進行擴容。接下來的三個步驟是哈希桶數組 resize成4,而後全部的Node從新rehash的過程。
由此能夠看出,JDK1.8的擴容並不會致使鏈表順序的倒序。並且JDK1.7擴容時致使的倒序還會在併發的多線程使用場景中使用HashMap可能形成死循環,這個在接下來的安全性中會詳細講。
public V get(Object key) {
Node<K,V> e;
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
// table不爲空 && table長度大於0 && table索引位置(根據hash值計算出)不爲空
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first; // first的key等於傳入的key則返回first對象
if ((e = first.next) != null) { // 向下遍歷
if (first instanceof TreeNode) // 判斷是否爲TreeNode
// 若是是紅黑樹節點,則調用紅黑樹的查找目標節點方法getTreeNode
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
// 走到這表明節點爲鏈表節點
do { // 向下遍歷鏈表, 直至找到節點的key和傳入的key相等時,返回該節點
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null; // 找不到符合的返回空
}
複製代碼
在多線程使用場景中,應該儘可能避免使用線程不安全的HashMap,而使用線程安全的ConcurrentHashMap。那麼爲何說HashMap是線程不安全的,主要有兩個方面:
1. put的時候多線程致使的數據不一致
好比有兩個線程A和B,首先A但願插入一個key-value對到HashMap中,首先計算記錄所要落到的 hash桶的索引座標,而後獲取到該桶裏面的鏈表頭結點,此時線程A的時間片用完了,而此時線程B被調度得以執行,和線程A同樣執行,只不過線程B成功將記錄插到了桶裏面,假設線程A插入的記錄計算出來的 hash桶索引和線程B要插入的記錄計算出來的 hash桶索引是同樣的,那麼當線程B成功插入以後,線程A再次被調度運行時,它依然持有過時的鏈表頭可是它對此一無所知,以致於它認爲它應該這樣作,如此一來就覆蓋了線程B插入的記錄,這樣線程B插入的記錄就憑空消失了,形成了數據不一致的行爲。
2. resize而引發死循環(JDK1.8已經不會出現該問題)
這種狀況發生在JDK1.7 中HashMap自動擴容時,當2個線程同時檢測到元素個數超過 數組大小 × 負載因子。此時2個線程會在put()方法中調用了resize(),兩個線程同時修改一個鏈表結構會產生一個循環鏈表(JDK1.7中,會出現resize先後元素順序倒置的狀況)。接下來再想經過get()獲取某一個元素,就會出現死循環。 下面舉例子說明在併發的多線程使用場景中使用HashMap可能形成死循環。代碼例子以下:
public class HashMapInfiniteLoop {
private static HashMap<Integer,String> map = new HashMap<Integer,String>(2,0.75f);
public static void main(String[] args) {
map.put(5, "C");
new Thread("Thread1") {
public void run() {
map.put(7, "B");
System.out.println(map);
};
}.start();
new Thread("Thread2") {
public void run() {
map.put(3, "A");
System.out.println(map);
};
}.start();
}
}
複製代碼
其中,map初始化爲一個長度爲2的數組,loadFactor=0.75,threshold=2*0.75=1,也就是說當put第二個key的時候,map就須要進行resize。
經過設置斷點讓線程1和線程2同時debug到transfer方法(3.3小節代碼塊)的首行。注意此時兩個線程已經成功添加數據。放開thread1的斷點至transfer方法的「Entry next = e.next;」 這一行;而後放開線程2的的斷點,讓線程2進行resize。結果以下圖。
注意,Thread1的 e 指向了key(3),而next指向了key(7),其在線程二rehash後,指向了線程二重組後的鏈表。
線程一被調度回來執行,先是執行 newTalbe[i] = e, 而後是e = next,致使了e指向了key(7),而下一次循環的next = e.next致使了next指向了key(3)。
e.next = newTable[i] 致使 key(3).next 指向了 key(7)。注意:此時的key(7).next 已經指向了key(3), 環形鏈表就這樣出現了。
因而,當咱們用線程一調用map.get(11)時,悲劇就出現了——Infinite Loop。
HashMap中,若是key通過hash算法得出的數組索引位置所有不相同,即Hash算法很是好,那樣的話,getKey方法的時間複雜度就是O(1),若是Hash算法技術的結果碰撞很是多,假如Hash算極其差,全部的Hash算法結果得出的索引位置同樣,那樣全部的鍵值對都集中到一個桶中,或者在一個鏈表中,或者在一個紅黑樹中,時間複雜度分別爲O(n)和O(lgn)。 鑑於JDK1.8作了多方面的優化,整體性能優於JDK1.7。具體我就不在這方面贅述了,能夠看下美團大佬的文章,裏面有測試Java 8系列之從新認識HashMap