HashMap？面試？我是誰？我在哪

時間 2019-11-13

原文原文鏈接

歡迎工做一到八年的Java工程師朋友們加入Java高級交流：854630135node

本羣提供免費的學習指導架構資料以及免費的解答面試

不懂得問題均可以在本羣提出來以後還會有直播平臺和講師直接交流噢算法

如今是晚上11點了，學校屠豬館的自習室由於太晚要關閉了，勤奮且疲憊的小魯班也從屠豬館出來了，正準備回宿舍洗洗睡，因爲自習室位置比較偏僻因此是接收不到手機網絡信號的，所以小魯班從兜裏掏出手機的時候，信息可真是炸了呀，小魯班心想，微信羣平時都沒什麼人聊天，今晚確定是發生了什麼大事，仔細一看，才發現原來是小魯班的室友達摩（光頭）拿到了阿里巴巴JAVA開發實習生的offer，此時小魯班真替他室友感到高興的同時，內心也不免會產生一絲絲的失落感，那是由於本身投了不少份簡歷，別說拿不拿獲得offer，就連給面試邀的公司也都寥寥無幾，小魯班這會可真是受到了一萬點真實暴擊，不太小魯班仍是很樂觀的，很快調整了心態，帶上耳機，慢慢的走回了宿舍，正打算準備向他那神室友達摩取取經。設計模式

片刻後~數組

小魯班：666，據說你拿到了阿里的offer，能透露一下面試內容和技巧嗎緩存

達摩：嘿嘿嘿，沒問題鴨，叫聲爸爸我就告訴你安全

小魯班：baba（表面笑嘻嘻，內心MMP）微信

達摩：其實我也不是很記得了（請繼續裝），但我仍是記得那麼一些，若是你是面的JAVA，首先固然是網絡

JAVA的基礎知識：數據結構（Map,List,Set等）,設計模式，算法，線程相關，IO/NIO，序列化等等
其次是高級特徵：反射機制，併發與鎖，JVM（GC策略，類加載機制，內存模型）等等
小魯班：問這麼多內容，那豈不是一我的都面試好久嗎？數據結構

達摩：不是的，面試官通常都會用連環炮的方式提問的。

小魯班：你說的連環炮是什麼意思鴨？

達摩：那我舉個例子

就好比問你HashMap是否是有序的？

你回答不是有序的。那面試官就會可能繼續問你，有沒有有序的Map實現類呢？

你若是這個時候說不知道的話，那這塊問題就到此結束了。若是你說有TreeMap和LinkedHashMap。

那麼面試官接下來就可能會問你，TreeMap和LinkedHashMap是如何保證它的順序的？

若是你回答不上來，那麼到此爲止。若是你說TreeMap是經過實現SortMap接口，可以把它保存的鍵值對根據key排序，基於紅黑樹，從而保證TreeMap中全部鍵值對處於有序狀態。LinkedHashMap則是經過插入排序（就是你put的時候的順序是什麼，取出來的時候就是什麼樣子）和訪問排序（改變排序把訪問過的放到底部）讓鍵值有序。

那麼面試官還會繼續問你，你以爲它們兩個哪一個的有序實現比較好？

若是你依然能夠回答的話，那麼面試官會繼續問你，你以爲還有沒有比它更好或者更高效的實現方式。。無窮無盡深刻，直到你回答不出來或者面試官認爲問題到底了

小魯班捏了一把汗，我去。。。這是魔鬼吧，那咱們來試試唄（由於小魯班剛剛在自習室纔看了這章的知識，想趁機裝一波逼，畢竟剛剛叫了聲爸爸~~）

因而達摩and小魯班就開始了對決：

1.爲何用HashMap？

HashMap是一個散列桶（數組和鏈表），它存儲的內容是鍵值對(key-value)映射
HashMap採用了數組和鏈表的數據結構，能在查詢和修改方便繼承了數組的線性查找和鏈表的尋址修改
HashMap是非synchronized，因此HashMap很快
HashMap能夠接受null鍵和值，而Hashtable則不能（緣由就是equlas()方法須要對象，由於HashMap是後出的API通過處理才能夠）
2.HashMap的工做原理是什麼？

HashMap是基於hashing的原理，咱們使用put(key, value)存儲對象到HashMap中，使用get(key)從HashMap中獲取對象。當咱們給put()方法傳遞鍵和值時，咱們先對鍵調用hashCode()方法，計算並返回的hashCode是用於找到Map數組的bucket位置來儲存Node 對象。這裏關鍵點在於指出，HashMap是在bucket中儲存鍵對象和值對象，做爲Map.Node 。

如下是HashMap初始化，簡單模擬數據結構
Node[] table=new Node[16] 散列桶初始化，table

class Node {

hash;//hash值

key;//鍵

value;//值

node next;//用於指向鏈表的下一層（產生衝突，用拉鍊法）

}

如下是具體的put過程（JDK1.8版）
1.對Key求Hash值，而後再計算下標

2.若是沒有碰撞，直接放入桶中（碰撞的意思是計算獲得的Hash值相同，須要放到同一個bucket中）

3.若是碰撞了，以鏈表的方式連接到後面

4.若是鏈表長度超過閥值( TREEIFY THRESHOLD==8)，就把鏈表轉成紅黑樹，鏈表長度低於6，就把紅黑樹轉回鏈表

5.若是節點已經存在就替換舊值

6.若是桶滿了(容量16*加載因子0.75)，就須要 resize（擴容2倍後重排）

如下是具體get過程(考慮特殊狀況若是兩個鍵的hashcode相同，你如何獲取值對象？)
當咱們調用get()方法，HashMap會使用鍵對象的hashcode找到bucket位置，找到bucket位置以後，會調用keys.equals()方法去找到鏈表中正確的節點，最終找到要找的值對象。

3.有什麼方法能夠減小碰撞？

擾動函數能夠減小碰撞，原理是若是兩個不相等的對象返回不一樣的hashcode的話，那麼碰撞的概率就會小些，這就意味着存鏈表結構減少，這樣取值的話就不會頻繁調用equal方法，這樣就能提升HashMap的性能。（擾動即Hash方法內部的算法實現，目的是讓不一樣對象返回不一樣hashcode。）
使用不可變的、聲明做final的對象，而且採用合適的equals()和hashCode()方法的話，將會減小碰撞的發生。不可變性使得可以緩存不一樣鍵的hashcode，這將提升整個獲取對象的速度，使用String，Interger這樣的wrapper類做爲鍵是很是好的選擇。爲何String, Interger這樣的wrapper類適合做爲鍵？由於String是final的，並且已經重寫了equals()和hashCode()方法了。不可變性是必要的，由於爲了要計算hashCode()，就要防止鍵值改變，若是鍵值在放入時和獲取時返回不一樣的hashcode的話，那麼就不能從HashMap中找到你想要的對象。
4.HashMap中hash函數怎麼是是實現的?

咱們能夠看到在hashmap中要找到某個元素，須要根據key的hash值來求得對應數組中的位置。如何計算這個位置就是hash算法。前面說過hashmap的數據結構是數組和鏈表的結合，因此咱們固然但願這個hashmap裏面的元素位置儘可能的分佈均勻些，儘可能使得每一個位置上的元素數量只有一個，那麼當咱們用hash算法求得這個位置的時候，立刻就能夠知道對應位置的元素就是咱們要的，而不用再去遍歷鏈表。因此咱們首先想到的就是把hashcode對數組長度取模運算，這樣一來，元素的分佈相對來講是比較均勻的。可是，「模」運算的消耗仍是比較大的，能不能找一種更快速，消耗更小的方式，咱們來看看JDK1.8的源碼是怎麼作的（被樓主修飾了一下）

static final int hash(Object key) {
if (key == null){
return 0;
}
int h;
h=key.hashCode()；返回散列值也就是hashcode
// ^ ：按位異或
// >>>:無符號右移，忽略符號位，空位都以0補齊
//其中n是數組的長度，即Map的數組部分初始化長度
return (n-1)&(h ^ (h >>> 16));
}

簡單來講就是

1.高16bt不變，低16bit和高16bit作了一個異或(獲得的HASHCODE轉化爲32位的二進制，前16位和後16位低16bit和高16bit作了一個異或)

2.(n·1)&hash=->獲得下標

5.拉鍊法致使的鏈表過深問題爲何不用二叉查找樹代替，而選擇紅黑樹？爲何不一直使用紅黑樹？

之因此選擇紅黑樹是爲了解決二叉查找樹的缺陷，二叉查找樹在特殊狀況下會變成一條線性結構（這就跟原來使用鏈表結構同樣了，形成很深的問題），遍歷查找會很是慢。而紅黑樹在插入新數據後可能須要經過左旋，右旋、變色這些操做來保持平衡，引入紅黑樹就是爲了查找數據快，解決鏈表查詢深度的問題，咱們知道紅黑樹屬於平衡二叉樹，可是爲了保持「平衡」是須要付出代價的，可是該代價所損耗的資源要比遍歷線性鏈表要少，因此當長度大於8的時候，會使用紅黑樹，若是鏈表長度很短的話，根本不須要引入紅黑樹，引入反而會慢。

6.說說你對紅黑樹的看法？

每一個節點非紅即黑
根節點老是黑色的
若是節點是紅色的，則它的子節點必須是黑色的（反之不必定）
每一個葉子節點都是黑色的空節點（NIL節點）
從根節點到葉節點或空子節點的每條路徑，必須包含相同數目的黑色節點（即相同的黑色高度）
　7.解決hash 碰撞還有那些辦法？

開放定址法。

當衝突發生時，使用某種探查技術在散列表中造成一個探查(測)序列。沿此序列逐個單元地查找，直到找到給定的地址。

按照造成探查序列的方法不一樣，可將開放定址法區分爲線性探查法、二次探查法、雙重散列法等。

下面給一個線性探查法的例子

問題：已知一組關鍵字爲(26，36，41，38，44，15，68，12，06，51)，用除餘法構造散列函數，用線性探查法解決衝突構造這組關鍵字的散列表。

解答：爲了減小衝突，一般令裝填因子α由除餘法因子是13的散列函數計算出的上述關鍵字序列的散列地址爲(0，10，2，12，5，2，3，12，6，12)。

前5個關鍵字插入時，其相應的地址均爲開放地址，故將它們直接插入T[0]，T[10)，T[2]，T[12]和T[5]中。

當插入第6個關鍵字15時，其散列地址2(即h(15)=15％13=2)已被關鍵字41(15和41互爲同義詞)佔用。故探查h1=(2+1)％13=3，此地址開放，因此將15放入T[3]中。

當插入第7個關鍵字68時，其散列地址3已被非同義詞15先佔用，故將其插入到T[4]中。

當插入第8個關鍵字12時，散列地址12已被同義詞38佔用，故探查hl=(12+1)％13=0，而T[0]亦被26佔用，再探查h2=(12+2)％13=1，此地址開放，可將12插入其中。

相似地，第9個關鍵字06直接插入T[6]中；而最後一個關鍵字51插人時，因探查的地址12，0，1，…，6均非空，故51插入T[7]中。

8.若是HashMap的大小超過了負載因子(load factor)定義的容量，怎麼辦？

默認的負載因子大小爲0.75，也就是說，當一個map填滿了75%的bucket時候，和其它集合類(如ArrayList等)同樣，將會建立原來HashMap大小的兩倍的bucket數組，來從新調整map的大小，並將原來的對象放入新的bucket數組中。這個過程叫做rehashing，由於它調用hash方法找到新的bucket位置。這個值只可能在兩個地方，一個是原下標的位置，另外一種是在下標爲<原下標+原容量>的位置

9.從新調整HashMap大小存在什麼問題嗎？

當從新調整HashMap大小的時候，確實存在條件競爭，由於若是兩個線程都發現HashMap須要從新調整大小了，它們會同時試着調整大小。在調整大小的過程當中，存儲在鏈表中的元素的次序會反過來，由於移動到新的bucket位置的時候，HashMap並不會將元素放在鏈表的尾部，而是放在頭部，這是爲了不尾部遍歷(tail traversing)。若是條件競爭發生了，那麼就死循環了。(多線程的環境下不使用HashMap）
爲何多線程會致使死循環，它是怎麼發生的？
HashMap的容量是有限的。當通過屢次元素插入，使得HashMap達到必定飽和度時，Key映射位置發生衝突的概率會逐漸提升。這時候，HashMap須要擴展它的長度，也就是進行Resize。1.擴容：建立一個新的Entry空數組，長度是原數組的2倍。2.ReHash：遍歷原Entry數組，把全部的Entry從新Hash到新數組。

（這個過程比較燒腦，暫不做流程圖演示，有興趣去看看個人另外一篇博文"HashMap擴容全過程"）

達摩：哎呦，小老弟不錯嘛~~意料以外呀

小魯班：嘿嘿，優秀吧，中場休息一波，我先喝口水

達摩：不只僅是這些哦，面試官還會問你相關的集合類對比，好比：

10.HashTable

數組 + 鏈表方式存儲
默認容量： 11(質數爲宜)
put:
索引計算 : （key.hashCode() & 0x7FFFFFFF）% table.length
若在鏈表中找到了，則替換舊值，若未找到則繼續
當總元素個數超過容量*加載因子時，擴容爲原來 2 倍並從新散列。
將新元素加到鏈表頭部
對修改 Hashtable 內部共享數據的方法添加了 synchronized，保證線程安全。
11.HashMap ，HashTable 區別

默認容量不一樣。擴容不一樣
線程安全性，HashTable 安全
效率不一樣 HashTable 要慢由於加鎖
12.ConcurrentHashMap 原理

最大特色是引入了 CAS（藉助 Unsafe 來實現【native code】）
CAS有3個操做數，內存值V，舊的預期值A，要修改的新值B。當且僅當預期值A和內存值V相同時，將內存值V修改成B，不然什麼都不作。
Unsafe 藉助 CPU 指令 cmpxchg 來實現
使用實例：
對 sizeCtl 的控制都是用 CAS 來實現的

sizeCtl ：默認爲0，用來控制 table 的初始化和擴容操做。
-1 表明table正在初始化
N 表示有 -N-1 個線程正在進行擴容操做
若是table未初始化，表示table須要初始化的大小。
若是table初始化完成，表示table的容量，默認是table大小的0.75倍，竟然用這個公式算0.75（n - (n >>> 2)）。
CAS 會出現的問題：ABA
對變量增長一個版本號，每次修改，版本號加 1，比較的時候比較版本號。
13.咱們可使用CocurrentHashMap來代替Hashtable嗎？

咱們知道Hashtable是synchronized的，可是ConcurrentHashMap同步性能更好，由於它僅僅根據同步級別對map的一部分進行上鎖。ConcurrentHashMap固然能夠代替HashTable，可是HashTable提供更強的線程安全性。它們均可以用於多線程的環境，可是當Hashtable的大小增長到必定的時候，性能會急劇降低，由於迭代時須要被鎖定很長的時間。由於ConcurrentHashMap引入了分割(segmentation)，不論它變得多麼大，僅僅須要鎖定map的某個部分，而其它的線程不須要等到迭代完成才能訪問map。簡而言之，在迭代的過程當中，ConcurrentHashMap僅僅鎖定map的某個部分，而Hashtable則會鎖定整個map。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。