1、簡介
Hash,通常翻譯作「散列」,也有直接音譯爲「哈希」的,就是把任意長度的輸入,經過散列算法,變換成固定長度的輸出,該輸出就是散列值。
散列表,它是基於快速存取的角度設計的,也是一種典型的「空間換時間」的作法。顧名思義,該數據結構能夠理解爲一個線性表,可是其中的元素不是緊密排列的,而是可能存在空隙。
散列表(Hash table,也叫哈希表),是根據關鍵碼值(Key value)而直接進行訪問的數據結構。也就是說,它經過把關鍵碼值映射到表中一個位置來訪問記錄,以加快查找的速度。這個映射函數叫作散列函數,存放記錄的數組叫作散列表。算法
2、hash函數的選擇
哈稀函數按照定義能夠實現一個僞隨機數生成器(PRNG),從這個角度能夠獲得一個公認的結論:哈希函數之間性能的比較能夠經過比較其在僞隨機生成方面的比較來衡量。
通常來講,對任意一類的數據存在一個理論上完美的哈希函數。這個完美的哈希函數定義是沒有發生任何碰撞,這意味着沒有出現重複的散列值。在現實中它很難找到一個完美的哈希散列函數,並且這種完美函數的趨近變種在實際應用中的做用是至關有限的。在實踐中人們廣泛認識到,一個完美哈希的哈希函數,就是在一個特定的數據集上產生的的碰撞最少哈希的函數。
咱們所能作的就是經過試錯方法來找到知足咱們要求的哈希函數。能夠從下面兩個角度來選擇哈希函數:數組
- 數據分佈
一個衡量的措施是考慮一個哈希函數是否能將一組數據的哈希值進行很好的分佈。要進行這種分析,須要知道碰撞的哈希值的個數,若是用鏈表來處理碰撞,則能夠分析鏈表的平均長度,也能夠分析散列值的分組數目。
- 哈希函數的效率
另個一個衡量的標準是哈希函數獲得哈希值的效率。一般,包含哈希函數的算法的算法複雜度都假設爲O(1),這就是爲何在哈希表中搜索數據的時間複雜度會被認爲是"平均爲O(1)的複雜度",而在另一些經常使用的數據結構,好比圖(一般被實現爲紅黑樹),則被認爲是O(logn)的複雜度。
一個好的哈希函數必須在理論上很是的快、穩定而且是可肯定的。一般哈希函數不可能達到O(1)的複雜度,可是哈希函數在字符串哈希的線性的搜索中確實是很是快的,而且一般哈希函數的對象是較小的主鍵標識符,這樣整個過程應該是很是快的,而且在某種程度上是穩定的。
在這篇文章中介紹的哈希函數被稱爲簡單的哈希函數。它們一般用於散列(哈希字符串)數據。它們被用來產生一種在諸如哈希表的關聯容器使用的key。這些哈希函數不是密碼安全的,很容易經過顛倒和組合不一樣數據的方式產生徹底相同的哈希值。
3、hash方法學
基於加法和乘法的散列
這種方式是經過遍歷數據中的元素而後每次對某個初始值進行加操做,其中加的值和這個數據的一個元素相關。一般這對某個元素值的計算要乘以一個素數。
緩存
基於移位的散列
和加法散列相似,基於移位的散列也要利用字符串數據中的每一個元素,可是和加法不一樣的是,後者更多的而是進行位的移位操做。一般是結合了左移和右移,移的位數的也是一個素數。每一個移位過程的結果只是增長了一些積累計算,最後移位的結果做爲最終結果。
安全
4、hash構造方法
- 直接尋址法:取關鍵字或關鍵字的某個線性函數值爲散列地址。即H(key)=key或H(key) = a?key + b,其中a和b爲常數(這種散列函數叫作自身函數)
- 數字分析法:分析一組數據,好比一組員工的出生年月日,這時咱們發現出生年月日的前幾位數字大致相同,這樣的話,出現衝突的概率就會很大,可是咱們發現年月日的後幾位表示月份和具體日期的數字差異很大,若是用後面的數字來構成散列地址,則衝突的概率會明顯下降。所以數字分析法就是找出數字的規律,儘量利用這些數據來構造衝突概率較低的散列地址。
- 平方取中法:取關鍵字平方後的中間幾位做爲散列地址。
- 摺疊法:將關鍵字分割成位數相同的幾部分,最後一部分位數能夠不一樣,而後取這幾部分的疊加和(去除進位)做爲散列地址。
- 隨機數法:選擇一隨機函數,取關鍵字的隨機值做爲散列地址,一般用於關鍵字長度不一樣的場合。
- 除留餘數法:取關鍵字被某個不大於散列表表長m的數p除後所得的餘數爲散列地址。即 H(key) = key MOD p, p<=m。不只能夠對關鍵字直接取模,也可在摺疊、平方取中等運算以後取模。對p的選擇很重要,通常取素數或m,若p選的很差,容易產生同義詞。
5、hash衝突及解決
hash衝突在所不免,解決衝突是一個複雜問題。衝突主要取決於:
(1) 與散列函數有關,一個好的散列函數的值應儘量平均分佈。
(2) 與解決衝突的哈希衝突函數有關。
(3) 與負載因子的大小。太大不必定就好,並且浪費空間嚴重,負載因子和散列函數是聯動的。
解決衝突的辦法:
(1) 開放定址法:線性探查法、平方探查法、僞隨機序列法、雙哈希函數法。
(2) 拉鍊法:把全部同義詞,即hash值相同的記錄,用單鏈錶鏈接起來。服務器
6、哈希函數和素數
沒有人能夠證實素數和僞隨機數生成器之間的關係,可是目前來講最好的結果使用了素數。僞隨機數生成器如今是一個統計學上的東西,不是一個肯定的實體,因此對其的分析只能對整個的結果有一些認識,而不能知道這些結果是怎麼產生的。
圍繞着哈希函數中的素數的使用的基本的概念是,利用一個素數來改變處理的哈希函數的狀態值,而不是使用其餘類型的數。處理這個詞的意思就是對哈希值進行一些簡單的操做,好比乘法和加法。這樣獲得的一個新的哈希值必定要在統計學上具備更高的熵,也就是說不能有爲偏向。簡單的說,當你用一個素數去乘一堆隨機數的時候,獲得的數在bit這個層次上是1的機率應該接近0.5。沒有具體的證實這種不便向的現象只出如今使用素數的狀況下,這看上去只是一個自我宣稱的直覺上的理論,並被一些業內人士所遵循。
決定什麼是正確的,甚至更好的方法和對散列素數的使用最好的組合仍然是一個頗有黑色藝術。沒有單一的方法能夠宣稱本身是最終的通用散列函數。最好的一所能作的就是經過試錯演進和得到適當的散列算法,以知足其須要的統計分析方法。網絡
7、應用領域
哈希是一個在現實世界中將數據映射到一個標識符的工具,下面是哈希函數的一些經常使用領域:數據結構
- 字符串哈希
在數據存儲領域,主要是數據的索引和對容器的結構化支持,好比哈希表。
- 加密哈希
用於數據/用戶覈查和驗證。一個強大的加密哈希函數很難從結果再獲得原始數據。加密哈希函數用於哈希用戶的密碼,用來代替密碼自己存在某個服務器撒很難過。加密哈希函數也被視爲不可逆的壓縮功能,可以表明一個信號標識的大量數據,能夠很是有用的判斷當前的數據是否已經被篡改(好比MD5),也能夠做爲一個數據標誌使用,以證實了經過其餘手段加密文件的真實性。
- 幾何哈希
這個哈希表用於在計算機視覺領域,爲在任意場景分類物體的探測。最初選擇的過程涉及一個地區或感興趣的對象。幾何散列包括各類汽車分類的從新檢測中任意場景的目的,典型的例子。檢測水平能夠多種多樣,從剛檢測是不是車輛,到特定型號的車輛,在特定的某個車輛。
- 布隆過濾器
布隆過濾器容許一個很是大範圍內的值被一個小不少的內存鎖表明。在計算機科學,這是衆所周知的關聯查詢,並在關聯容器的核心理念。
Bloom Filter的實現經過多種不一樣的hash函數使用,也可經過容許一個特定值的存在有必定的偏差機率會員查詢結果的。布隆過濾器的保證提供的是,對於任何會員國的查詢就永遠不會再有假陰性,但有多是假陽性。假陽性的機率能夠經過改變控制爲布隆過濾器,並經過不一樣的hash函數的數量所使用的表的大小。
隨後的研究工做集中在的散列函數和哈希表以及Mitzenmacher的布隆過濾器等領域。建議對這種結構,在數據被散列熵最實用的用法有助於哈希函數熵,這是理論成果上締結一項最佳的布隆過濾器(一個提供給定一個最低的進一步致使假陽性的可能性表的大小或反之亦然)提供假陽性的機率定義用戶能夠建造最多也做爲兩種大相徑庭的兩兩獨立的哈希散列函數已知功能,大大提升了查詢效率的成員。
布隆過濾器一般存在於諸如拼寫檢查器,字符串匹配算法,網絡數據包分析工具和網絡/ Internet緩存的應用程序。
- Hash算法在信息安全方面的應用主要體如今如下的3個方面: (1) 文件校驗 咱們比較熟悉的校驗算法有奇偶校驗和CRC校驗,這2種校驗並無抗數據篡改的能力,它們必定程度上能檢測並糾正數據傳輸中的信道誤碼,但卻不能防止對數據的惡意破壞。 MD5 Hash算法的"數字指紋"特性,使它成爲目前應用最普遍的一種文件完整性校驗和(Checksum)算法,很多Unix系統有提供計算md5 checksum的命令。 (2) 數字簽名 Hash 算法也是現代密碼體系中的一個重要組成部分。因爲非對稱算法的運算速度較慢,因此在數字簽名協議中,單向散列函數扮演了一個重要的角色。 對 Hash 值,又稱"數字摘要"進行數字簽名,在統計上能夠認爲與對文件自己進行數字簽名是等效的。並且這樣的協議還有其餘的優勢。 (3) 鑑權協議 以下的鑑權協議又被稱做挑戰--認證模式:在傳輸信道是可被偵聽,但不可被篡改的狀況下,這是一種簡單而安全的方法。