HashMap相關類:Hashtable、LinkHashMap、TreeMap

前言

很高興碰見你~java

深刻剖析HashMap 文章中我從散列表的角度解析了HashMap,在 深刻解析ConcurrentHashMap:感覺併發編程智慧 解析了ConcurrentHashMap的底層實現原理。本文是HashMap系列文章的第三篇,主要內容是講解與HashMap相關的集合類。git

HashMap自己功能已經相對完善,但在某些特殊的情景下,他就顯得無能爲力,如高併發、須要記住key插入順序、給key排序等。實現這些功能每每須要付出必定的代價,在沒有必然的需求情景下,增添這些功能是不必的。於是,爲了提升性能,Java並無把這些特性直接集成到HashMap中,拓展了擁有這些特性的其餘集合類做爲補充:算法

  • 線程安全的ConcurrentHashMap、Hashtable、SynchronizeMap
  • 記住插入順序的LinkedHashMap
  • 記錄key順序的TreeMap

這樣,咱們就能夠在特定的需求情景下,選擇最適合咱們的集合框架,從而來提升性能。那麼今天這篇文章,主要就是分析這些其餘的集合類的特性、付出的性能代價、與HashMap的區別。編程

那麼,咱們開始吧~api

Hashtable

Hashtable是屬於JDK1.1的第一批集合框架其中之一,其餘的還有Vector、Stack等。這些集合框架因爲設計上的缺陷,致使了性能的瓶頸,在jdk1.2以後就被新的一套集合框架取代,也就是HashMap、ArrayList這些。HashMap在jdk1.8以後進行了全面的優化,而Hashtable依舊保持着舊版本的設計,在不少方面都落後於HashMap。下面主要分析Hashtable在:接口繼承、哈希函數、哈希衝突、擴容方案、線程安全等方面解析他們的不一樣。數組

接口繼承

Hashtable繼承自Dictionary類而不是AbstractMap,類圖以下(jdk1.8)安全

Hashtable誕生的時間是比Map早,但爲了兼容新的集合在jdk1.2以後也繼承了Map接口。Dictionary在目前已經徹底被Map取代了,因此更加建議使用繼承自AbstractMap的HashMap。爲了兼容新版本接口還有Hashtable的迭代器:Enumerator。他的接口繼承結構以下:數據結構

他不只實現了舊版的Enumeration接口,同時也實現了Iteractor接口,兼容了新的api與使用習慣。這裏關於Hashtable還有一個問題:Hashtable是fast-fail的嗎多線程

fast-fail指的是在使用迭代器遍歷集合過程當中,若是集合發生告終構性改變,如添加數據、擴容、刪除數據等,迭代器會拋出異常。Enumerator自己的實現是沒有fast-fail設計的,但他繼承了Iteractor接口以後,就有了fast-fail。看一下源碼:併發

public T next() {
    // 這裏在Enumerator的基礎上,增長了fast-fail
    if (Hashtable.this.modCount != expectedModCount)
        throw new ConcurrentModificationException();
    //  nextElement()是Enumeration的接口方法
    return nextElement();
}

private void addEntry(int hash, K key, V value, int index) {
    ...
    // 在添加數據以後,會改變modCount的值
    modCount++;
}

因此,Hashtable自己的設計是有fastfail的,但若是使用的Enumerator,則享受不到這個設計了。

哈希算法

Hashtable的哈希算法很是簡單粗暴,以下代碼

hash = key.hashCode();
index = (hash & 0x7FFFFFFF) % tab.length;

獲取key的hashcode,經過直接對數組長度求餘來獲取下標。這裏還有一步是hash & 0x7FFFFFFF,目的是把最高位變成0,把hashcode變成一個非負數。爲了使得hash能夠分佈更加均勻,Hashtable默認控制數組的長度爲一個素數:初始值爲11,每次擴容爲原來的兩倍+1

衝突解決

Hashtable使用的是鏈表法,也稱爲拉鍊法。發生衝突以後會轉換爲鏈表。HashMap在jdk1.8以後增長了紅黑樹,因此在劇烈衝突的狀況下,Hashtable的性能降低會比HashMap明顯很是多。

Hashtable的裝載因子與HashMap一致,默認都是0.75,且建議非特殊狀況不要進行修改。

擴容方案

Hashtable的擴容方案也很是簡單粗暴,新建一個長度爲原來的兩倍+1長度的數組,遍歷全部的舊數組的數據,從新hash插入新的數組。他的源碼很是簡單,有興趣能夠看一下:

protected void rehash() {
    int oldCapacity = table.length;
    Entry<?,?>[] oldMap = table;
    // 設置數組長度爲原來的2倍+1
    int newCapacity = (oldCapacity << 1) + 1;
    if (newCapacity - MAX_ARRAY_SIZE > 0) {
        if (oldCapacity == MAX_ARRAY_SIZE)
            // 若是長度達到最大值,則直接返回
            return;
        // 超過最大值設置長度爲最大
        newCapacity = MAX_ARRAY_SIZE;
    }
    // 新建數組
    Entry<?,?>[] newMap = new Entry<?,?>[newCapacity];
	// modcount++,表示發生結構性改變
    modCount++;
    // 初始化裝載因子,改變table引用
    threshold = (int)Math.min(newCapacity * loadFactor, MAX_ARRAY_SIZE + 1);
    table = newMap;
	// 遍歷全部的數據,從新hash後插入新的數組,這裏使用的是頭插法
    for (int i = oldCapacity ; i-- > 0 ;) {
        for (Entry<K,V> old = (Entry<K,V>)oldMap[i] ; old != null ; ) {
            Entry<K,V> e = old;
            old = old.next;
            int index = (e.hash & 0x7FFFFFFF) % newCapacity;
            e.next = (Entry<K,V>)newMap[index];
            newMap[index] = e;
        }
    }
}

線程安全

Hashtable和HashMap最大的不一樣就是線程安全了。jdk1.1的第一批集合框架都被設計爲線程安全,但手段都很是粗暴:直接給全部方法上鎖 。但咱們知道,鎖是一個很是重量級的操做,會嚴重影響性能。Hashtable直接對整個對象上鎖的缺點有:

  • 同一時間只能有一個線程在讀或者寫,併發效率極低
  • 頻繁上鎖進行系統調用,嚴重影響性能

因此雖然Hashtable實現了必定程度上的線程安全,可是卻付出了很是大的性能代價。這也是爲何在jdk1.2他們立刻就被淘汰了。

不容許空鍵值

容許空鍵值這個設計有利也有弊,在ConcurrentHashMap中也禁止插入空鍵值,但HashMap是容許的。容許value空值會致使get方法返回null時有兩種狀況:

  1. 找不到對應的key
  2. 找到了可是value爲null;

當get方法返回null時沒法判斷是哪一種狀況,在併發環境下containsKey方法已再也不可靠,須要返回null來表示查詢不到數據。容許key空值須要額外的邏輯處理,佔用了數組空間,且並無多大的實用價值。HashMap支持鍵和值爲null,但基於以上緣由,ConcurrentHashMap是不支持空鍵值。

小結

整體來講,Hashtable屬於舊版本的集合框架,他的設計已經落後了,官方更加推薦使用HashMap;而Hashtable線程安全的特性的同時,也帶來了極大的性能代價,更加推薦使用ConcurrentHashMap來代替Hashtable。

SynchronizeMap

SynchronizeMap這個集合類可能並不太熟悉,他是Collections.synchronizeMap()方法返回的對象,以下:

public static <K,V> Map<K,V> synchronizedMap(Map<K,V> m) {
    return new SynchronizedMap<>(m);
}

SynchronizeMap的做用是保證了線程安全,可是他的方法和Hashtable一致,也是簡單粗暴,直接加鎖,以下圖:

這裏的mutex是什麼呢?直接看到構造器:

final Object      mutex;        // Object on which to synchronize
SynchronizedMap(Map<K,V> m) {
    this.m = Objects.requireNonNull(m);
    // 默認爲本對象
    mutex = this;
}
SynchronizedMap(Map<K,V> m, Object mutex) {
    this.m = m;
    this.mutex = mutex;
}

能夠看到默認鎖的就是對象自己,效果和Hashtable實際上是同樣的。因此,通常狀況下也是不推薦使用這個方法來保證線程安全。

ConcurrentHashMap

前面講到的兩個線程安全的Map集合框架,因爲性能低下而不被推薦使用。ConcurrentHashMap就是來解決這個問題的。關於ConcurrentHashMap的詳細內容,在深刻解析ConcurrentHashMap:感覺併發編程智慧 一文中已經有了具體的介紹,這裏簡單介紹一下ConcurrentHashMap的思路。

ConcurrentHashMap並非和Hashtable同樣採用直接對整個數組進行上鎖,而是對數組上的一個節點上鎖,這樣若是併發訪問的不是同個節點,那麼就無需等待釋放鎖。以下圖:

不一樣線程之間的訪問不一樣的節點不互相干擾,提升了併發訪問的性能。ConcurrentHashMap讀取內容是不須要加鎖的,因此實現了能夠邊寫邊讀,多線程共讀,提升了性能。

這是jdk1.8優化以後的設計結構,jdk1.7以前是分爲多個小數組,鎖的粒度比Hashtable稍小了一些。以下:

鎖的是Segment,每一個Segment對應一個數組。而jdk1.8以後鎖的粒度進一步下降,性能也進一步提升了。

LinkedHashMap

HashMap是沒法記住插入順序的,在一些須要記住插入順序的場景下,HashMap就顯得無能爲力,因此LinkHashMap就應運而生。LinkedHashMap內部新建一個內部節點類LinkedHashMapEntry繼承自HashMap的Node,增長了先後指針。每一個插入的節點,都會使用先後指針聯繫起來,造成一個鏈表,這樣就能夠記住插入的順序,以下圖:

圖中的紅色線表示雙向鏈表的引用。遍歷時從head出發能夠按照插入順序遍歷全部節點。

LinkedHashMap繼承於HashMap,徹底是基於HashMap進行改造的,在HashMap中就能看到LinkedMap的身影,以下:

HashMap.java

// Callbacks to allow LinkedHashMap post-actions
void afterNodeAccess(Node<K,V> p) { }
void afterNodeInsertion(boolean evict) { }
void afterNodeRemoval(Node<K,V> p) { }

HashMap自己已經預留了接口給LinkedHashMap重寫。LinkedHashMap自己的put、remove、get等等方法都是直接使用HashMap的方法。

LinkedHashMap的好處就是記住Node的插入順序,當使用Iteractor遍歷LinkedHashMap時,會按照Node的插入順序遍歷,HashMap則是按照數組的先後順序進行遍歷。

TreeMap

有沒有發現前面兩個集合框架的命名都是 xxHashMap,而TreeMap並非,緣由就在於TreeMap並非散列表,只是實現了散列表的功能。

HashMap的key排列是無序的,hash函數把每一個key都隨機散列到數組中,而若是想要保持key有序,則可使用TreeMap。TreeMap的繼承結構以下:

他繼承自Map體系,實現了Map的接口,同時還實現了NavigationMap接口,該接口拓展了很是多的方便查找key的接口,如最大的key、最小的key等。

TreeMap雖然擁有映射表的功能,可是他底層並非一個映射表,而是一個紅黑樹。他能夠將key進行排序,但同時也失去了HashMap在常數時間複雜度下找到數據的優勢,平均時間複雜度是O(logN)。因此若不是有排序的需求,常規狀況下仍是使用HashMap。

須要注意的是,TreeMap中的元素必須實現Comparable接口或者在TreeMap的構造函數中傳入一個Comparator對象,他們之間才能夠進行比較大小。

TreeMap自己的使用和特性是比較簡單的,核心的重點在於他的底層數據結構:紅黑樹。這是一個比較複雜的數據結構,限於篇幅,筆者會在另外的文章中詳解紅黑樹。

最後

文章詳解了Hashtable這個舊版的集合框架,同時簡單介紹了SynchronizeMap、ConcurrentHashMap、LinkedHashMap、TreeMap。這個類都在HashMap的基礎功能上,拓展了一些新的特性,同時也帶來一些性能上的代價。HashMap並無稱爲功能的集大成者,而是把具體的特性分發到其餘的Map實現類中,這樣作得好處是,咱們不須要在單線程的環境下卻要付出線程安全的代價。因此瞭解這些相關Map實現類的特性以及付出的性能代價,則是咱們學習的重點。

但願文章對你有幫助~

全文到此,原創不易,以爲有幫助能夠點贊收藏評論關注轉發。
筆者才疏學淺,有任何想法歡迎評論區交流指正。
如需轉載請評論區或私信交流。

另外歡迎光臨筆者的我的博客:傳送門

相關文章
相關標籤/搜索