Java 中 hashCode() 和 equals() 的關係是面試中的常考點,若是沒有深刻思考過二者設計的初衷,這個問題將很難回答。除了應付面試,理解兩者的關係更有助於咱們寫出高質量且準確的代碼。程序員
在學習 hashCode() 和 equals() 之間的關係以前, 咱們有必要先單獨地瞭解他倆的特色.面試
equals() 方法用於比較兩個對象是否相等,它與 == 相等比較符有着本質的不一樣。編程
在萬物皆對象的 Java 體系中,系統把判斷對象是否相等的權力交給程序員。具體的措施是把 equals() 方法寫到 Object 類中,並讓全部類繼承 Object 類。這樣程序員就能在自定義的類中重寫 equals() 方法, 從而實現本身的比較邏輯。api
hashCode() 的意思是哈希值, 哈希值是經哈希函數運算後獲得的結果,哈希函數可以保證相同的輸入可以獲得相同的輸出(哈希值),可是不可以保證不一樣的輸入老是能得出不一樣的輸出。數組
當輸入的樣本量足夠大時,是會產生哈希衝突的,也就是說不一樣的輸入產生了相同的輸出。數據結構
暫且不談衝突,就相同的輸入可以產生相同的輸出這點而言,是及其寶貴的。它使得系統只須要經過簡單的運算,在時間複雜度O(1)的狀況下就能得出數據的映射關係,根據這種特性,散列表應運而生。app
一種主流的散列表實現是:用數組做爲哈希函數的輸出域,輸入值通過哈希函數計算後獲得哈希值。而後根據哈希值,在數組種找到對應的存儲單元。當發生衝突時,對應的存儲單元以鏈表的形式保存衝突的數據。ide
下面咱們從一個宏觀的角度討論 hashCode() 和 equals() 之間的關係。函數
在大多數編程實踐中,歸根結底會落實到數據的存取問題上。在彙編語言時代,你須要老老實實地對每一個數據操做編寫存取語句。性能
而隨着時代發展到今天,咱們都用更方便靈活的高級語言編寫代碼,好比 Java。
Java 以面向對象爲核心思想,封裝了一系列操做數據的 api,下降了數據操做的複雜度。
但在咱們對數據進行操做以前,首先要把數據按照必定的數據結構保存到存儲單元中,不然操做數據將無從談起。
然而不一樣的數據結構有各自的特色,咱們在存儲數據的時候須要選擇合適的數據結構進行存儲。Java 根據不一樣的數據結構提供了豐富的容器類,方便程序員選擇適合業務的容器類進行開發。
經過繼承關係圖咱們看到 Java 的容器類被分爲 Collection 和 Map 兩大類,Collection 又能夠進一步分爲 List 和 Set。 其中 Map 和 Set 都是不容許元素重複的,嚴格來講Map存儲的是鍵值對,它不容許重複的鍵值。
值得注意的是:Map 和 Set 的絕大多數實現類的底層都會用到散列表結構。
講到這裏咱們提取兩個關鍵字不容許重複和散列表結構,回顧 hashCode() 和 equals() 的特色,你是否想到了些什麼東西呢?
上面提到 Set 和 Map 不存放重複的元素(key),這些容器在存儲元素的時必須對元素作出判斷:在當前的容器中有沒有和新元素相同的元素?
你可能會想:這容易呀,直接調用元素對象的 equals() 方法進行比較不就好了嗎?
若是容器中的存儲的對象數量較少,這確實是個好主意,可是若是容器中存放的對象達到了必定的規模,要調用容器中全部對象的 equals() 方法和新元素進行比較,就不是一件容易的事情了。
就算 equals() 方法的比較邏輯簡單無比,總的來講也是一個時間複雜度爲 O(n) 的操做啊。
但在散列表的基礎上,判斷「新對象是否和已存在對象相同」就容易得多了。
因爲每一個對象都自帶有 hashCode(),這個 hashCode 將會用做散列表哈希函數的輸入,hashCode 通過哈希函數計算後獲得哈希值,新對象會根據哈希值,存儲到相應的內存的單元。
咱們不妨假設兩個相同的對象,hashCode() 必定相同,這麼一來就體現出哈希函數的威力了。
因爲相同的輸入必定會產生相同的輸出,因而若是新對象,和容器中已存在的對象相同,新對象計算出的哈希值就會和已存在的對象的哈希值產生衝突。
這時容器就能判斷:這個新加入的元素已經存在,須要另做處理:覆蓋掉原來的元素(key)或捨棄。
按照這個思路,若是這個元素計算出的哈希值所對應的內存單元沒有產生衝突,也就是沒有重複的元素,那麼它就能夠直接插入。
因此當運用 hashCode() 時,判斷是否有相同元素的代價,只是一次哈希計算,時間複雜度爲O(1),這極大地提升了數據的存儲性能。
前面咱們還提到:當輸入樣本量足夠大時,不相同的輸入是會產生相同輸出的,也就是造成哈希衝突。
這麼一來就麻煩了,原來咱們設定的「若是產生衝突,就意味着兩個對象相同」的規則瞬間被打破,由於產生衝突的頗有多是兩個不一樣的對象!
而使人欣慰的是咱們除了 hashCode() 方法,還有一張王牌:equals() 方法。
也就是說當兩個不相同的對象產生哈希衝突後,咱們能夠用 equals() 方法進一步判斷兩個對象是否相同。
這時 equals() 方法就至關重要了,這個狀況下它必需要能斷定這兩個對象是不相同的。
但有時候面試不會問得這麼直接,他會問你:兩個對象的 hashCdoe() 相同,它的 equals() 方法必定要返回 true,對嗎?
那答案確定不對。由於咱們不能保證每一個程序設計者,都會遵循編碼約定。
有可能兩個不一樣對象的hashCode()會返回相同的結果,可是因爲他們是不一樣的對象,他們的 equals() 方法會返回false。
若是你理解上面的內容,這個問題就很好解答,咱們再回顧一下:
若是兩個對象的 hashCode() 相同,未來就會在散列表中產生哈希衝突,可是它們不必定是相同的對象呀。
當產生哈希衝突時,咱們還得經過 equals() 方法進一步判斷兩個對象是否相同,equals() 方法不必定會返回 true。
這也是爲何 Java 官方推薦咱們在一個類中,最好同時重寫 hashCode() 和 equals() 方法的緣由。
以上的文字,是我通過思考後得出的,它有必定依據但並不是徹底可靠。下面咱們根據 HashMap 的源碼(JDK1.8)和官方文檔,來驗證這些推論是否正確。
經過閱讀JDK8的官方文檔,咱們發現 equals() 方法介紹的最後有這麼一段話:
Note that it is generally necessary to override the hashCode method whenever this method is overridden, so as to maintain the general contract for the hashCode method, which states that equal objects must have equal hash codes.
官方文檔提醒咱們當重寫 equals() 方法的時候,最好也要重寫 hashCode() 方法。
也就是說若是咱們經過重寫 equals() 方法判斷兩個對象相同時,他們的hash code也應該相同,這樣才能讓hashCode()方法發揮它的做用。
那它究竟能發會怎樣的做用呢?
咱們結合部分較爲經常使用的 HashMap 源碼進一步分析。(像 HashSet 底層也是經過 HashMap 實現的)
在 HashMap 中用得最多無疑是 put() 方法了,如下是put()的源碼:
public V put(K key, V value) { return putVal(hash(key), key, value, false, true); }
咱們能夠看到 put() 方法實際調用的是 putVal() 方法,繼續跟進:
final V putVal(int hash, K key, V value, Boolean onlyIfAbsent, Boolean evict) { Node<K,V>[] tab; Node<K,V> p; int n, i; //在咱們建立HashMap對象的時候, 內存中並無爲HashMap分配表的空間, 直到往HashMap中put添加元素的時候才調用resize()方法初始化表 if ((tab = table) == null || (n = tab.length) == 0) n = (tab = resize()).length; //同時肯定了表的長度 //((n - 1) & hash)肯定了要put的元素的位置, 若是要插入的地方是空的, 就能夠直接插入. if ((p = tab[i = (n - 1) & hash]) == null) tab[i] = newNode(hash, key, value, null); else { //若是發生了衝突, 就要在衝突位置的鏈表末尾插入元素 Node<K,V> e; K k; if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) //關鍵!!!當判斷新加入的元素是否與已有的元素相同, 首先判斷的是hash值, 後面再調用equals()方法. 若是hash值不一樣是直接跳過的 e = p; else if (p instanceof TreeNode)//若是衝突解決方案已經變成紅黑樹的話, 按紅黑樹的策略添加結點. e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value); else { //解決衝突的方式還是鏈表 for (int binCount = 0; ; ++binCount) { //找到鏈表的末尾, 插入. if ((e = p.next) == null) { p.next = newNode(hash, key, value, null); if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st treeifyBin(tab, hash); //插入以後要判斷鏈表的長度, 若是到達必定的值就可能要轉換爲紅黑樹. break; } //在遍歷的過程當中仍會不停地斷定當前key是否與傳入的key相同, 判斷的第一條件仍然是hash值. if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) break; p = e; } } if (e != null) { // existing mapping for key V oldValue = e.value; if (!onlyIfAbsent || oldValue == null) e.value = value; afterNodeAccess(e); return oldValue; } } ++modCount; //修改map的次數增長 if (++size > threshold)//若是hashMap的容量到達了必定值就要進行擴容 resize(); afterNodeInsertion(evict); return null; }
咱們能夠看到每當判斷 key 是否相同時,首先會判斷 hash 值,若是 hash 值相同(產生了衝突),而後會判斷 key 引用所指的對象是否相同,最終會經過 equals() 方法做最後的斷定。
若是 key 的 hash 值不一樣,後面的判斷將不會執行,直接認定兩個對象不相同。
if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) e = p;
講到這裏但願你們對 hashCode() 與 equals() 方法能有更深刻的理解,明白背後的設計思想與原理。
我以前有一個疑問,可能你們看完這篇文章後也會有:equals() 方法平時我會用到,因此我知道它除了和 hashCode() 方法有密切聯繫外,還有別的用途。
可是hashCode()呢?它除了和equals()方法有密切聯繫外,還有其餘用途嗎?
通過在互聯網上一番搜尋,我目前給出的答案是沒有。
也就是說 hashCode() 僅在散列表中才有用,在其它狀況下沒用。
固然若是這個答案不正確,或者你還有別的思考,歡迎留言與我交流~