很高興碰見你~java
在 深刻剖析HashMap 文章中我從散列表的角度解析了HashMap,在 深刻解析ConcurrentHashMap:感覺併發編程智慧 解析了ConcurrentHashMap的底層實現原理。本文是HashMap系列文章的第三篇,主要內容是講解與HashMap相關的集合類。git
HashMap自己功能已經相對完善,但在某些特殊的情景下,他就顯得無能爲力,如高併發、須要記住key插入順序、給key排序等。實現這些功能每每須要付出必定的代價,在沒有必然的需求情景下,增添這些功能是不必的。於是,爲了提升性能,Java並無把這些特性直接集成到HashMap中,拓展了擁有這些特性的其餘集合類做爲補充:算法
這樣,咱們就能夠在特定的需求情景下,選擇最適合咱們的集合框架,從而來提升性能。那麼今天這篇文章,主要就是分析這些其餘的集合類的特性、付出的性能代價、與HashMap的區別。編程
那麼,咱們開始吧~api
Hashtable是屬於JDK1.1的第一批集合框架其中之一,其餘的還有Vector、Stack等。這些集合框架因爲設計上的缺陷,致使了性能的瓶頸,在jdk1.2以後就被新的一套集合框架取代,也就是HashMap、ArrayList這些。HashMap在jdk1.8以後進行了全面的優化,而Hashtable依舊保持着舊版本的設計,在不少方面都落後於HashMap。下面主要分析Hashtable在:接口繼承、哈希函數、哈希衝突、擴容方案、線程安全等方面解析他們的不一樣。數組
Hashtable繼承自Dictionary類而不是AbstractMap,類圖以下(jdk1.8)安全
Hashtable誕生的時間是比Map早,但爲了兼容新的集合在jdk1.2以後也繼承了Map接口。Dictionary在目前已經徹底被Map取代了,因此更加建議使用繼承自AbstractMap的HashMap。爲了兼容新版本接口還有Hashtable的迭代器:Enumerator。他的接口繼承結構以下:數據結構
他不只實現了舊版的Enumeration接口,同時也實現了Iteractor接口,兼容了新的api與使用習慣。這裏關於Hashtable還有一個問題:Hashtable是fast-fail的嗎 ?多線程
fast-fail指的是在使用迭代器遍歷集合過程當中,若是集合發生告終構性改變,如添加數據、擴容、刪除數據等,迭代器會拋出異常。Enumerator自己的實現是沒有fast-fail設計的,但他繼承了Iteractor接口以後,就有了fast-fail。看一下源碼:併發
public T next() { // 這裏在Enumerator的基礎上,增長了fast-fail if (Hashtable.this.modCount != expectedModCount) throw new ConcurrentModificationException(); // nextElement()是Enumeration的接口方法 return nextElement(); } private void addEntry(int hash, K key, V value, int index) { ... // 在添加數據以後,會改變modCount的值 modCount++; }
因此,Hashtable自己的設計是有fastfail的,但若是使用的Enumerator,則享受不到這個設計了。
Hashtable的哈希算法很是簡單粗暴,以下代碼
hash = key.hashCode(); index = (hash & 0x7FFFFFFF) % tab.length;
獲取key的hashcode,經過直接對數組長度求餘來獲取下標。這裏還有一步是hash & 0x7FFFFFFF
,目的是把最高位變成0,把hashcode變成一個非負數。爲了使得hash能夠分佈更加均勻,Hashtable默認控制數組的長度爲一個素數:初始值爲11,每次擴容爲原來的兩倍+1 。
Hashtable使用的是鏈表法,也稱爲拉鍊法。發生衝突以後會轉換爲鏈表。HashMap在jdk1.8以後增長了紅黑樹,因此在劇烈衝突的狀況下,Hashtable的性能降低會比HashMap明顯很是多。
Hashtable的裝載因子與HashMap一致,默認都是0.75,且建議非特殊狀況不要進行修改。
Hashtable的擴容方案也很是簡單粗暴,新建一個長度爲原來的兩倍+1長度的數組,遍歷全部的舊數組的數據,從新hash插入新的數組。他的源碼很是簡單,有興趣能夠看一下:
protected void rehash() { int oldCapacity = table.length; Entry<?,?>[] oldMap = table; // 設置數組長度爲原來的2倍+1 int newCapacity = (oldCapacity << 1) + 1; if (newCapacity - MAX_ARRAY_SIZE > 0) { if (oldCapacity == MAX_ARRAY_SIZE) // 若是長度達到最大值,則直接返回 return; // 超過最大值設置長度爲最大 newCapacity = MAX_ARRAY_SIZE; } // 新建數組 Entry<?,?>[] newMap = new Entry<?,?>[newCapacity]; // modcount++,表示發生結構性改變 modCount++; // 初始化裝載因子,改變table引用 threshold = (int)Math.min(newCapacity * loadFactor, MAX_ARRAY_SIZE + 1); table = newMap; // 遍歷全部的數據,從新hash後插入新的數組,這裏使用的是頭插法 for (int i = oldCapacity ; i-- > 0 ;) { for (Entry<K,V> old = (Entry<K,V>)oldMap[i] ; old != null ; ) { Entry<K,V> e = old; old = old.next; int index = (e.hash & 0x7FFFFFFF) % newCapacity; e.next = (Entry<K,V>)newMap[index]; newMap[index] = e; } } }
Hashtable和HashMap最大的不一樣就是線程安全了。jdk1.1的第一批集合框架都被設計爲線程安全,但手段都很是粗暴:直接給全部方法上鎖 。但咱們知道,鎖是一個很是重量級的操做,會嚴重影響性能。Hashtable直接對整個對象上鎖的缺點有:
因此雖然Hashtable實現了必定程度上的線程安全,可是卻付出了很是大的性能代價。這也是爲何在jdk1.2他們立刻就被淘汰了。
容許空鍵值這個設計有利也有弊,在ConcurrentHashMap中也禁止插入空鍵值,但HashMap是容許的。容許value空值會致使get方法返回null時有兩種狀況:
當get方法返回null時沒法判斷是哪一種狀況,在併發環境下containsKey方法已再也不可靠,須要返回null來表示查詢不到數據。容許key空值須要額外的邏輯處理,佔用了數組空間,且並無多大的實用價值。HashMap支持鍵和值爲null,但基於以上緣由,ConcurrentHashMap是不支持空鍵值。
整體來講,Hashtable屬於舊版本的集合框架,他的設計已經落後了,官方更加推薦使用HashMap;而Hashtable線程安全的特性的同時,也帶來了極大的性能代價,更加推薦使用ConcurrentHashMap來代替Hashtable。
SynchronizeMap這個集合類可能並不太熟悉,他是Collections.synchronizeMap()方法返回的對象,以下:
public static <K,V> Map<K,V> synchronizedMap(Map<K,V> m) { return new SynchronizedMap<>(m); }
SynchronizeMap的做用是保證了線程安全,可是他的方法和Hashtable一致,也是簡單粗暴,直接加鎖,以下圖:
這裏的mutex是什麼呢?直接看到構造器:
final Object mutex; // Object on which to synchronize SynchronizedMap(Map<K,V> m) { this.m = Objects.requireNonNull(m); // 默認爲本對象 mutex = this; } SynchronizedMap(Map<K,V> m, Object mutex) { this.m = m; this.mutex = mutex; }
能夠看到默認鎖的就是對象自己,效果和Hashtable實際上是同樣的。因此,通常狀況下也是不推薦使用這個方法來保證線程安全。
前面講到的兩個線程安全的Map集合框架,因爲性能低下而不被推薦使用。ConcurrentHashMap就是來解決這個問題的。關於ConcurrentHashMap的詳細內容,在深刻解析ConcurrentHashMap:感覺併發編程智慧 一文中已經有了具體的介紹,這裏簡單介紹一下ConcurrentHashMap的思路。
ConcurrentHashMap並非和Hashtable同樣採用直接對整個數組進行上鎖,而是對數組上的一個節點上鎖,這樣若是併發訪問的不是同個節點,那麼就無需等待釋放鎖。以下圖:
不一樣線程之間的訪問不一樣的節點不互相干擾,提升了併發訪問的性能。ConcurrentHashMap讀取內容是不須要加鎖的,因此實現了能夠邊寫邊讀,多線程共讀,提升了性能。
這是jdk1.8優化以後的設計結構,jdk1.7以前是分爲多個小數組,鎖的粒度比Hashtable稍小了一些。以下:
鎖的是Segment,每一個Segment對應一個數組。而jdk1.8以後鎖的粒度進一步下降,性能也進一步提升了。
HashMap是沒法記住插入順序的,在一些須要記住插入順序的場景下,HashMap就顯得無能爲力,因此LinkHashMap就應運而生。LinkedHashMap內部新建一個內部節點類LinkedHashMapEntry繼承自HashMap的Node,增長了先後指針。每一個插入的節點,都會使用先後指針聯繫起來,造成一個鏈表,這樣就能夠記住插入的順序,以下圖:
圖中的紅色線表示雙向鏈表的引用。遍歷時從head出發能夠按照插入順序遍歷全部節點。
LinkedHashMap繼承於HashMap,徹底是基於HashMap進行改造的,在HashMap中就能看到LinkedMap的身影,以下:
HashMap.java // Callbacks to allow LinkedHashMap post-actions void afterNodeAccess(Node<K,V> p) { } void afterNodeInsertion(boolean evict) { } void afterNodeRemoval(Node<K,V> p) { }
HashMap自己已經預留了接口給LinkedHashMap重寫。LinkedHashMap自己的put、remove、get等等方法都是直接使用HashMap的方法。
LinkedHashMap的好處就是記住Node的插入順序,當使用Iteractor遍歷LinkedHashMap時,會按照Node的插入順序遍歷,HashMap則是按照數組的先後順序進行遍歷。
有沒有發現前面兩個集合框架的命名都是 xxHashMap,而TreeMap並非,緣由就在於TreeMap並非散列表,只是實現了散列表的功能。
HashMap的key排列是無序的,hash函數把每一個key都隨機散列到數組中,而若是想要保持key有序,則可使用TreeMap。TreeMap的繼承結構以下:
他繼承自Map體系,實現了Map的接口,同時還實現了NavigationMap接口,該接口拓展了很是多的方便查找key的接口,如最大的key、最小的key等。
TreeMap雖然擁有映射表的功能,可是他底層並非一個映射表,而是一個紅黑樹。他能夠將key進行排序,但同時也失去了HashMap在常數時間複雜度下找到數據的優勢,平均時間複雜度是O(logN)。因此若不是有排序的需求,常規狀況下仍是使用HashMap。
須要注意的是,TreeMap中的元素必須實現Comparable接口或者在TreeMap的構造函數中傳入一個Comparator對象,他們之間才能夠進行比較大小。
TreeMap自己的使用和特性是比較簡單的,核心的重點在於他的底層數據結構:紅黑樹。這是一個比較複雜的數據結構,限於篇幅,筆者會在另外的文章中詳解紅黑樹。
文章詳解了Hashtable這個舊版的集合框架,同時簡單介紹了SynchronizeMap、ConcurrentHashMap、LinkedHashMap、TreeMap。這個類都在HashMap的基礎功能上,拓展了一些新的特性,同時也帶來一些性能上的代價。HashMap並無稱爲功能的集大成者,而是把具體的特性分發到其餘的Map實現類中,這樣作得好處是,咱們不須要在單線程的環境下卻要付出線程安全的代價。因此瞭解這些相關Map實現類的特性以及付出的性能代價,則是咱們學習的重點。
但願文章對你有幫助~
全文到此,原創不易,以爲有幫助能夠點贊收藏評論關注轉發。
筆者才疏學淺,有任何想法歡迎評論區交流指正。
如需轉載請評論區或私信交流。另外歡迎光臨筆者的我的博客:傳送門