哈希表（散列表）

時間 2019-11-29

標籤哈希列表简体版

原文原文鏈接

一定義

散列表（Hash table，也叫 哈希表），是根據關鍵碼值(Key value)而直接進行訪問的數據結構。也就是說，它經過把關鍵碼值映射到表中一個位置來訪問記錄，以加快查找的速度。這個映射函數叫作散列函數，存放記錄的數組叫作散列表。

給定表M，存在函數f(key)，對任意給定的關鍵字值key，代入函數後若能獲得包含該關鍵字的記錄在表中的地址，則稱表M爲哈希(Hash）表，函數f(key)爲哈希(Hash) 函數。

對於散列表咱們一般要關心兩個問題， 肯定散列函數以及產生衝突時 處理衝突的方法。

二肯定散列函數

1. 直接尋址法：取關鍵字或關鍵字的某個線性函數值爲散列地址。即H(key)=key或H(key) = a·key + b，其中a和b爲常數（這種散列函數叫作自身函數）。若其中H(key）中已經有值了，就往下一個找，直到H(key）中沒有值了，就放進去。

2. 數字分析法：分析一組數據，好比一組員工的出生年月日，這時咱們發現出生年月日的前幾位數字大致相同，這樣的話，出現衝突的概率就會很大，可是咱們發現年月日的後幾位表示月份和具體日期的數字差異很大，若是用後面的數字來構成散列地址，則衝突的概率會明顯下降。所以數字分析法就是找出數字的規律，儘量利用這些數據來構造衝突概率較低的散列地址。

3. 平方取中法：當沒法肯定關鍵字中哪幾位分佈較均勻時，能夠先求出關鍵字的平方值，而後按須要取平方值的中間幾位做爲哈希地址。這是由於：平方後中間幾位和關鍵字中每一位都相關，故不一樣關鍵字會以較高的機率產生不一樣的哈希地址。

4. 摺疊法：將關鍵字分割成位數相同的幾部分，最後一部分位數能夠不一樣，而後取這幾部分的疊加和（去除進位）做爲散列地址。數位疊加能夠有移位疊加和間界疊加兩種方法。移位疊加是將分割後的每一部分的最低位對齊，而後相加；間界疊加是從一端向另外一端沿分割界來回摺疊，而後對齊相加。

5. 隨機數法：選擇一隨機函數，取關鍵字的隨機值做爲散列地址，一般用於關鍵字長度不一樣的場合。

6. 除留餘數法：取關鍵字被某個不大於散列表表長m的數p除後所得的餘數爲散列地址。即 H(key) = key MOD p,p<=m。不只能夠對關鍵字直接取模，也可在摺疊、平方取中等運算以後取模。對p的選擇很重要，通常取素數或m，若p選的很差，容易產生同義詞。

三處理衝突

關於衝突的理解，由定義能夠看出這種轉換是一種壓縮映射，也就是，散列值的空間一般遠小於輸入的空間，不一樣的輸入可能會散列成相同的輸出。即不一樣的關鍵字通過散列函數的計算獲得了相同的散列地址。

處理衝突的幾種方法：

1. 開放尋址法：Hi=(H(key) + di) MOD m,i=1,2，…，k(k<=m-1），其中H(key）爲散列函數，m爲散列表長，di爲增量序列，可有下列三種取法：

(1) di=1,2,3，…，m-1，稱線性探測再散列；

(2).di=1^2,-1^2,2^2,-2^2，⑶^2，…，±（k)^2,(k<=m/2）稱二次探測再散列；

(3) di=僞隨機數序列，稱僞隨機探測再散列。

2. 再散列法：Hi=RHi(key),i=1,2，…，k RHi均是不一樣的散列函數，即在同義詞產生地址衝突時計算另外一個散列函數地址，直到衝突再也不發生，這種方法不易產生「彙集」，但增長了計算時間。

3. 鏈地址法，存儲結構以下圖，代表1，9，81映射到了統一地址，即位置1，而12，28映射到了同一地址4，這種方法也不易產生彙集。

四查找性能數組

查找過程當中，關鍵碼的比較次數，取決於產生衝突的多少，產生的衝突少，查找效率就高，產生的衝突多，查找效率就低。所以，影響產生衝突多少的因素，也就是影響查找效率的因素。影響產生衝突多少有如下三個因素：數據結構

1. 散列函數是否均勻；

2. 處理衝突的方法；

3. 散列表的裝填因子。

散列表的裝填因子：α= 填入表中的元素個數 / 散列表的長度

α是散列表裝滿程度的標誌因子。因爲表長是定值，α與「填入表中的元素個數」成正比，因此，α越大，填入表中的元素較多，產生衝突的可能性就越大；α越小，填入表中的元素較少，產生衝突的可能性就越小。

實際上，散列表的平均查找長度是裝填因子α的函數，只是不一樣處理衝突的方法有不一樣的函數。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。