哈希表

時間 2019-12-08

標籤哈希简体版

原文原文鏈接

================================================================================================數組

哈希表的概念數據結構

哈希表(Hash Table)也叫散列表，是根據關鍵碼值（Key Value）而直接進行訪問的數據結構。它經過把關鍵碼值映射到哈希表中的一個位置來訪問記錄，以加快查找的速度。這個映射函數就作散列函數，存放記錄的數組叫作散列表。函數

散列存儲的基本思路性能

以數據中每一個元素的關鍵字K爲自變量，經過散列函數H（k）計算出函數值，以該函數值做爲一塊連續存儲空間的的單元地址，將該元素存儲到函數值對應的單元中。指針

哈希表查找的時間複雜度基礎

哈希表存儲的是鍵值對，其查找的時間複雜度與元素數量多少無關，哈希表在查找元素時是經過計算哈希碼值來定位元素的位置從而直接訪問元素的，所以，哈希表查找的時間複雜度爲O（1）。變量

哈希函數的構造方法隨機數

哈希表處理衝突主要有開房尋址法、再散列法、鏈地址法（拉鍊法）和創建一個公共溢出區四種方法。方法

1. 直接尋址法鏈表

取關鍵字或者關鍵字的某個線性函數值做爲哈希地址,即H(Key)=Key或者H(Key)=a*Key+b(a,b爲整數),這種散列函數也叫作自身函數.若是H(Key)的哈希地址上已經有值了,那麼就往下一個位置找,知道找到H(Key)的位置沒有值了就把元素放進去.

2. 數字分析法

分析一組數據,好比一組員工的出生年月,這時咱們發現出生年月的前幾位數字通常都相同,所以,出現衝突的機率就會很大,可是咱們發現年月日的後幾位表示月份和具體日期的數字差異很大,若是利用後面的幾位數字來構造散列地址,則衝突的概率則會明顯下降.所以數字分析法就是找出數字的規律,儘量利用這些數據來構造衝突概率較低的散列地址.

3. 平方取中法

取關鍵字平方後的中間幾位做爲散列地址.

4. 摺疊法

摺疊法即將關鍵字分割成位數相同的幾部分,最後一部分位數能夠不一樣,而後取這幾部分的疊加和(注意:疊加和時去除進位)做爲散列地址.數位疊加能夠有移位疊加和間界疊加兩種方法.移位疊加是將分割後的每一部分的最低位對齊,而後相加;間界疊加是從一端向另外一端沿分割界來回摺疊,而後對齊相加.

5. 隨機數法

選擇一個隨機數,去關鍵字的隨機值做爲散列地址,一般用於關鍵字長度不一樣的場合.

6. 除留餘數法

取關鍵字被某個不大於散列表表長m的數p除後所得的餘數爲散列地址.即H(Key)=Key MOD p,p<=m.不只能夠對關鍵字直接取模,也可在摺疊、平方取中等運算以後取模。對p的選擇很重要，通常取素數或m，若p選得很差，則很容易產生衝突。

哈希表如何處理衝突

哈希表處理衝突主要有開放尋址法、再散列法、鏈地址法（拉鍊法）和創建一個公共溢出區四種方法。

經過構造性能良好的哈希函數，能夠減小衝突，但通常不可能徹底避免衝突，所以解決衝突是哈希法的另外一個關鍵問題。建立哈希表和查找哈希表都會遇到衝突，兩種狀況下解決衝突的方法應該一致。下面以建立哈希表爲例，說明解決衝突的方法。經常使用的解決衝突方法有如下四種：

1.開放定址法

這種方法也稱再散列法，其基本思想是：當關鍵字key的哈希地址p=H（key）出現衝突時，以p爲基礎，產生另外一個哈希地址p1，若是p1仍然衝突，再以p爲基礎，產生另外一個哈希地址p2，…，直到找出一個不衝突的哈希地址pi ，將相應元素存入其中。這種方法有一個通用的再散列函數形式：Hi=(H(key)+di)%m i=1，2，…，n,其中H（key）爲哈希函數，m 爲表長，di稱爲增量序列。增量序列的取值方式不一樣，相應的再散列方式也不一樣。主要有如下三種：

(1) 線性探測再散列

di=1，2，3，…，m-1

這種方法的特色是：衝突發生時，順序查看錶中下一單元，直到找出一個空單元或查遍全表。

(2)二次探測再散列

di=1²，-1²，2²，-2²，…，k²，-k² ( k<=m/2)

這種方法的特色是：衝突發生時，在表的左右進行跳躍式探測，比較靈活。

(3)僞隨機探測再散列

di=僞隨機數序列。

具體實現時，應創建一個僞隨機數發生器，（如i=(i+p) % m），並給定一個隨機數作起點。

例如，已知哈希表長度m=11，哈希函數爲：H（key）= key % 11，則H（47）=3，H（26）=4，H（60）=5，假設下一個關鍵字爲69，則H（69）=3，與47衝突。若是用線性探測再散列處理衝突，下一個哈希地址爲H1=（3 + 1）% 11 = 4，仍然衝突，再找下一個哈希地址爲H2=（3 + 2）% 11 = 5，仍是衝突，繼續找下一個哈希地址爲H3=（3 + 3）% 11 = 6，此時再也不衝突，將69填入5號單元。若是用二次探測再散列處理衝突，下一個哈希地址爲H1=（3 + 12）% 11 = 4，仍然衝突，再找下一個哈希地址爲H2=（3 - 12）% 11 = 2，此時再也不衝突，將69填入2號單元。若是用僞隨機探測再散列處理衝突，且僞隨機數序列爲：2，5，9，……..，則下一個哈希地址爲H1=（3 + 2）% 11 = 5，仍然衝突，再找下一個哈希地址爲H2=（3 + 5）% 11 = 8，此時再也不衝突，將69填入8號單元。

從上述例子能夠看出，線性探測再散列容易產生「二次彙集」，即在處理同義詞的衝突時又致使非同義詞的衝突。例如，當表中i, i+1 ,i+2三個單元已滿時，下一個哈希地址爲i, 或i+1 ,或i+2，或i+3的元素，都將填入i+3這同一個單元，而這四個元素並不是同義詞。線性探測再散列的優勢是：只要哈希表不滿，就必定能找到一個不衝突的哈希地址，而二次探測再散列和僞隨機探測再散列則不必定。

2.再哈希法

這種方法是同時構造多個不一樣的哈希函數：

H_i=RH₁（key），i=1，2,3，…,n.

當哈希地址Hi=RH1（key）發生衝突時，再計算Hi=RH2（key）……，直到衝突再也不產生。這種方法不易產生彙集，但增長了計算時間。

3.鏈地址法

這種方法的基本思想是將全部哈希地址爲i的元素構成一個稱爲同義詞鏈的單鏈表，並將單鏈表的頭指針存在哈希表的第i個單元中，於是查找、插入和刪除主要在同義詞鏈中進行。若選定的散列表長度爲m，則可將散列表定義爲一個由m個頭指針組成的指針數組T[0..m-1]。凡是散列地址爲i的結點，均插入到以T[i]爲頭指針的單鏈表中。T中各份量的初值均應爲空指針。鏈地址法適用於常常進行插入和刪除的狀況。

例如，已知一組關鍵字（32，40，36，53，16，46，71，27，42，24，49，64），哈希表長度爲13，哈希函數爲：H（key）= key % 13，則用鏈地址法處理衝突的結果如圖8.27所示：

圖8.27 鏈地址法處理衝突時的哈希表

本例的平均查找長度 ASL=(1*7+2*4+3*1)/12=1.5

拉鍊法的優勢

與開放定址法相比，拉鍊法有以下幾個優勢：

(1)拉鍊法處理衝突簡單，且無堆積現象，即非同義詞決不會發生衝突，所以平均查找長度較短；

(2)因爲拉鍊法中各鏈表上的結點空間是動態申請的，故它更適合於造表前沒法肯定表長的狀況；

(3)開放定址法爲減小衝突，要求裝填因子α較小，故當結點規模較大時會浪費不少空間。而拉鍊法中可取α≥1，且結點較大時，拉鍊法中增長的指針域可忽略不計，所以節省空間；

(4)在用拉鍊法構造的散列表中，刪除結點的操做易於實現。只要簡單地刪去鏈表上相應的結點便可。而對開放地址法構造的散列表，刪除結點不能簡單地將被刪結點的空間置爲空，不然將截斷在它以後填入散列表的同義詞結點的查找路徑。這是由於各類開放地址法中，空地址單元(即開放地址)都是查找失敗的條件。所以在用開放地址法處理衝突的散列表上執行刪除操做，只能在被刪結點上作刪除標記，而不能真正刪除結點。

拉鍊法的缺點

拉鍊法的缺點是：指針須要額外的空間，故當結點規模較小時，開放定址法較爲節省空間，而若將節省的指針空間用來擴大散列表的規模，可以使裝填因子變小，這又減小了開放定址法中的衝突，從而提升平均查找速度。

四、創建公共溢出區

這種方法的基本思想是：將哈希表分爲基本表和溢出表兩部分，凡是和基本表發生衝突的元素，一概填入溢出表.(注意：在這個方法裏面是把元素分開兩個表來存儲)

衝突太多了怎麼辦?

當衝突太多的時候,咱們通常採用的方法時拉鍊法,採用拉鍊法的緣由是動態申請空間,至於優勢在上面已經闡述了.衝突太多的時候會產生堆積狀態,咱們將H(key)相同的關鍵字都統一放到一個鏈裏,當出現衝突的時候咱們就把該元素接在鏈表後面,這樣能夠避免產生堆積現象,縮短平均查找長度.

當數據表過小,而數據太多的時候怎麼辦?

當數據表過小數據太多能夠經過創建一個溢出表,專門用來存放哈希表中放不下的記錄.

================================================================================================