查找算法之哈希表

時間 2019-11-15

標籤查找算法哈希欄目應用數學简体版

原文原文鏈接

說道查找，我想你們並不陌生，所謂查找，即爲根據某個給定的值，在查找表中肯定一個其關鍵字等於給定值的記錄或數據元素。算法

像比較常見的，有循序查找，針對有序表的有比較高效的二分(折半)查找，同時還有經過樹來優化的靜態樹查找與動態樹查找，可是這些無一不是在查找過程當中要進行一系列的和關鍵字之間的比較。數組

那麼，咱們是否能夠不須要比較就找到了目標呢？固然，若是咱們把相應查找表的存儲位置(index)和其關鍵字之間構建一個肯定的聯繫，那麼在每一查找時，咱們就能夠直接經過關鍵字得到查找對象的存儲位置，而後就能夠拿到相應都目標對象了。函數

這就是哈希表所作的事兒！！！優化

下面舉個栗子：spa

現須要創建一張全國30個地區的各名族人口統計表，每一個地區有一個記錄，記錄的數據以下：對象

顯然，使用數組存儲，數組長度爲30，每個數組元保存一個地區的信息，通常狀況下，咱們所作的就是把地區一個一個的添加到數組裏面去，最多也就是按照第一個漢字的拼音的開頭字母進行一下排序，最終咱們要去找某個元素的時候，雖然大概知道咱們要找的元素大概在那個位置，可是是否是仍是要進行相應的關鍵字比對，即便只有那麼一兩次(優秀的查找算法加上有序的查找表)，哈希表所作的就是，個人關鍵字就是數組下標，(什麼？ –_– 你是否是瘋了，個人關鍵字是中文，是字符串，怎麼就和數組下標，不對 )，固然，關鍵字不能作下標，可是咱們能夠找到一種對應關係，是得每個關鍵字都儘可能對應惟一個下標(數值)，這就是咱們所說的哈希函數。blog

仍是上面的例子：現列出三種關鍵字與存儲位置(index)之間的對應關係：排序

第二種哈希函數：先求關鍵字的第一個和最後一個字母在字母表中的序號之和，和值若比30大，則減去30，字符串

第三種哈希函數：先求每一個漢字的第一個拼音字母的ASCII嗎之和的八進制形式，而後將這個八進制數當作十進制數在除以30取餘，若餘數爲零則加上30使其成爲哈希函數值。get

固然！從上面的表格中咱們能夠看到，無論值哪種哈希函數，都存在通關關鍵字求出來的數組相同的狀況，咱們稱之爲衝突，從哈希函數的原理以及目的來分析，顯然這是不能夠的，如何解決，這裏先買一個官子，先來談談如何構建哈希表，如何找到一個合適和哈希函數，何爲合適，

如對於關鍵字集合的任意一個關鍵字，經哈希函數地址結合中任意一個地址的機率是相等的，則成此類哈希函數爲均勻的哈希函數，即關鍵字的哈希地址均勻分佈在整個地址空間中，從而減小衝突。

下面列出經常使用的構建哈希函數的方法：

1：直接定址法(取關鍵字和關鍵字的某個線性函數值爲哈希地址)。

如：一個從1歲到100歲的人口數字統計表，其中，年齡做爲關鍵字，哈希函數就能夠取關鍵字自己，知足哈希表的要求。

2：數字分析法(經過關鍵字的總體狀況來判斷去關鍵字的某一段或者某一種形式)：

原則：儘可能選擇關鍵字出現隨機且相互獨立的區段。

3：平方取中法(取關鍵字平方後的中間幾位爲哈希地址)

原理：一個數平方後的中間幾位數和數的每一位都相關。

4：摺疊法(將關鍵字分割爲位數相同的幾部分，而後取這幾部分的疊加和，針對於關鍵字比較多的時候)

栗子：國際標準圖書編號，0-442-20586-4 能夠經過以下過程求得哈希函數值

5：除留餘數法，取關鍵字被 p(某個不大於哈希表表長m的的數) 除後所得餘數的爲哈希地址。

H(key) = key MOD p, ( p < m);

通常狀況下，選擇的p應應爲質數(只能被1和其自身整除的數)。

6：隨機數法

上面談到在經過哈希函數求哈希值時，不免會碰見兩個不一樣的關鍵字求得的哈希地址相同的狀況，如何處理衝突？

處理衝突：爲衝突的關鍵字記錄找到另外一個’空’的地址

1：開放定址法：

1)：線性探測再散列：即從衝突的地址開始日後找，直至找到‘空’的哈希地址。

2)：二次探測再散列：一次取1的二次方，-1的二次方，2的二次方，-2的二次方……讓當前衝突的哈希地址與這些數字一次相加知道找到‘空地址’，其實咱們能夠看作在衝突的地方兩邊波動並逐漸遠離。

3)：僞隨機數序列(這個就顧名思義了)。

二次彙集：兩個第一個哈希地址不一樣的記錄爭奪同一個後繼哈希地址。上圖爲例，咱們已經求出了60,17,29的哈希地址，當咱們就後面的關鍵字時，就有可能會求得其哈希地址爲5，與關鍵字爲60的有衝突，此時，若使用線性探測在散列，哈希地址將會變爲8，這時，若是有一個關鍵字的算出來的哈希地址是6，與17衝突，這個新算出來的爲6的關鍵字是否是原本也應該取8爲其哈希地址的(根據線性探測再散列)，此時五門就說這兩個關鍵字(最新算出來的哈希地址與60相同的和最新算出來的哈希地址和17相同的)彙集。

2：再哈希法： H = R(H(key))：即在同義詞產生地址衝突時經過另外一個哈希函數計算哈希地址。

3：鏈地址法：建立另一個鏈表，將全部關鍵字爲同義詞的記錄存儲在此線性表中。

4：創建公共溢出區：創建向量OverTable[0…v]：全部關鍵字和基本表中關鍵字爲同義詞的記錄，無論其有哈希函數的到的哈希地址是什麼，只要衝突發生都填入溢出表。