Hash算法【轉】

時間 2019-11-25

標籤 hash 算法简体版

原文原文鏈接

轉自：http://www.cnblogs.com/wangjy/archive/2011/09/08/2171638.htmlhtml

Hash，通常翻譯作「散列」，也有直接音譯爲「哈希」的，就是把任意長度的輸入（又叫作預映射， pre-image），經過散列算法，變換成固定長度的輸出，該輸出就是散列值。這種轉換是一種壓縮映射，也就是，散列值的空間一般遠小於輸入的空間，不一樣的輸入可能會散列成相同的輸出，而不可能從散列值來惟一的肯定輸入值。簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數。git

　　HASH主要用於信息安全領域中加密算法，它把一些不一樣長度的信息轉化成雜亂的128位的編碼,這些編碼值叫作HASH值. 也能夠說，hash就是找到一種數據內容和數據存放地址之間的映射關係算法

基本概念

　　　* 若結構中存在和關鍵字K相等的記錄，則一定在f(K)的存儲位置上。由此，不需比較即可直接取得所查記錄。稱這個對應關係f爲散列函數(Hash function)，按這個思想創建的表爲散列表。數據庫

　　* 對不一樣的關鍵字可能獲得同一散列地址，即key1≠key2，而f(key1)=f(key2)，這種現象稱衝突。具備相同函數值的關鍵字對該散列函數來講稱作同義詞。綜上所述，根據散列函數H(key)和處理衝突的方法將一組關鍵字映象到一個有限的連續的地址集（區間）上，並以關鍵字在地址集中的「象」做爲記錄在表中的存儲位置，這種表便稱爲散列表，這一映象過程稱爲散列造表或散列，所得的存儲位置稱散列地址。數組

　　* 若對於關鍵字集合中的任一個關鍵字，經散列函數映象到地址集合中任何一個地址的機率是相等的，則稱此類散列函數爲均勻散列函數(Uniform Hash function)，這就是使關鍵字通過散列函數獲得一個「隨機的地址」，從而減小衝突。安全

經常使用的構造散列函數的方法

　　散列函數能使對一個數據序列的訪問過程更加迅速有效，經過散列函數，數據元素將被更快地定位ǐ服務器

　　1. 直接尋址法：取關鍵字或關鍵字的某個線性函數值爲散列地址。即H(key)=key或H(key) = a·key + b，其中a和b爲常數（這種散列函數叫作自身函數）網絡

　　2. 數字分析法app

　　3. 平方取中法ide

　　4. 摺疊法

　　5. 隨機數法

　　6. 除留餘數法：取關鍵字被某個不大於散列表表長m的數p除後所得的餘數爲散列地址。即 H(key) = key MOD p, p<=m。不只能夠對關鍵字直接取模，也可在摺疊、平方取中等運算以後取模。對p的選擇很重要，通常取素數或m，若p選的很差，容易產生同義詞。

處理衝突的方法

　　1. 開放尋址法；Hi=(H(key) + di) MOD m, i=1,2,…, k(k<=m-1)，其中H(key)爲散列函數，m爲散列表長，di爲增量序列，可有下列三種取法：

　　1. di=1,2,3,…, m-1，稱線性探測再散列；

　　2. di=1^2, (-1)^2, 2^2,(-2)^2, (3)^2, …, ±(k)^2,(k<=m/2)稱二次探測再散列;

　　3. di=僞隨機數序列，稱僞隨機探測再散列。 ==

　　2. 再散列法：Hi=RHi(key), i=1,2,…,k RHi均是不一樣的散列函數，即在同義詞產生地址衝突時計算另外一個散列函數地址，直到衝突再也不發生，這種方法不易產生「彙集」，但增長了計算時間。

　　3. 鏈地址法(拉鍊法)

　　4. 創建一個公共溢出區

查找的性能分析

　　散列表的查找過程基本上和造表過程相同。一些關鍵碼可經過散列函數轉換的地址直接找到，另外一些關鍵碼在散列函數獲得的地址上產生了衝突，須要按處理衝突的方法進行查找。在介紹的三種處理衝突的方法中，產生衝突後的查找仍然是給定值與關鍵碼進行比較的過程。因此，對散列表查找效率的量度，依然用平均查找長度來衡量。

　　查找過程當中，關鍵碼的比較次數，取決於產生衝突的多少，產生的衝突少，查找效率就高，產生的衝突多，查找效率就低。所以，影響產生衝突多少的因素，也就是影響查找效率的因素。影響產生衝突多少有如下三個因素：

　　1. 散列函數是否均勻；

　　2. 處理衝突的方法；

　　3. 散列表的裝填因子。

　　散列表的裝填因子定義爲：α= 填入表中的元素個數 / 散列表的長度

　　α是散列表裝滿程度的標誌因子。因爲表長是定值，α與「填入表中的元素個數」成正比，因此，α越大，填入表中的元素較多，產生衝突的可能性就越大；α越小，填入表中的元素較少，產生衝突的可能性就越小。

　　實際上，散列表的平均查找長度是裝填因子α的函數，只是不一樣處理衝突的方法有不一樣的函數。

　　瞭解了hash基本定義，就不能不提到一些著名的hash算法，MD5 和 SHA-1 能夠說是目前應用最普遍的Hash算法，而它們都是以 MD4 爲基礎設計的。那麼他們都是什麼意思呢?

　　這裏簡單說一下：

　　（1) MD4

　　MD4(RFC 1320)是 MIT 的 Ronald L. Rivest 在 1990 年設計的，MD 是 Message Digest 的縮寫。它適用在32位字長的處理器上用高速軟件實現--它是基於 32 位操做數的位操做來實現的。

　　（2) MD5

　　MD5(RFC 1321)是 Rivest 於1991年對MD4的改進版本。它對輸入仍以512位分組，其輸出是4個32位字的級聯，與 MD4 相同。MD5比MD4來得複雜，而且速度較之要慢一點，但更安全，在抗分析和抗差分方面表現更好

　　（3) SHA-1及其餘

　　SHA1是由NIST NSA設計爲同DSA一塊兒使用的，它對長度小於264的輸入，產生長度爲160bit的散列值，所以抗窮舉(brute-force)性更好。SHA-1 設計時基於和MD4相同原理,而且模仿了該算法。

　　那麼這些Hash算法到底有什麼用呢?

　　Hash算法在信息安全方面的應用主要體如今如下的3個方面：

　　（1) 文件校驗

　　咱們比較熟悉的校驗算法有奇偶校驗和CRC校驗，這2種校驗並無抗數據篡改的能力，它們必定程度上能檢測並糾正數據傳輸中的信道誤碼，但卻不能防止對數據的惡意破壞。

　　MD5 Hash算法的"數字指紋"特性，使它成爲目前應用最普遍的一種文件完整性校驗和(Checksum)算法，很多Unix系統有提供計算md5 checksum的命令。

　　（2) 數字簽名

　　Hash 算法也是現代密碼體系中的一個重要組成部分。因爲非對稱算法的運算速度較慢，因此在數字簽名協議中，單向散列函數扮演了一個重要的角色。對 Hash 值，又稱"數字摘要"進行數字簽名，在統計上能夠認爲與對文件自己進行數字簽名是等效的。並且這樣的協議還有其餘的優勢。

　　（3) 鑑權協議

　　以下的鑑權協議又被稱做挑戰--認證模式：在傳輸信道是可被偵聽，但不可被篡改的狀況下，這是一種簡單而安全的方法。以上就是一些關於hash以及其相關的一些基本預備知識。那麼在emule裏面他具體起到什麼做用呢?

　　MD五、SHA1的破解

　　2004年8月17日，在美國加州聖芭芭拉召開的國際密碼大會上，山東大學王小云教授在國際會議上首次宣佈了她及她的研究小組近年來的研究成果——對MD五、HAVAL－12八、MD4和RIPEMD等四個著名密碼算法的破譯結果。次年二月宣佈破解SHA-1密碼。

編輯本段 散列函數的性質

　　全部散列函數都有以下一個基本特性：若是兩個散列值是不相同的（根據同一函數），那麼這兩個散列值的原始輸入也是不相同的。這個特性是散列函數具備肯定性的結果。但另外一方面，散列函數的輸入和輸出不是一一對應的，若是兩個散列值相同，兩個輸入值極可能是相同的，但並不能絕對確定兩者必定相等。輸入一些數據計算出散列值，而後部分改變輸入值，一個具備強混淆特性的散列函數會產生一個徹底不一樣的散列值。

　　典型的散列函數都有無限定義域，好比任意長度的字節字符串，和有限的值域,好比固定長度的比特串。在某些狀況下，散列函數能夠設計成具備相同大小的定義域和值域間的一一對應。一一對應的散列函數也稱爲排列。可逆性能夠經過使用一系列的對於輸入值的可逆「混合」運算而獲得。求。到2007年爲止，第三版還未完備。

編輯本段 散列函數的應用

　　因爲散列函數的應用的多樣性，它們常常是專爲某一應用而設計的。例如，加密散列函數假設存在一個要找到具備相同散列值的原始輸入的敵人。一個設計優秀的加密散列函數是一個「單向」操做：對於給定的散列值，沒有實用的方法能夠計算出一個原始輸入，也就是說很難僞造。爲加密散列爲目的設計的函數，如MD5，被普遍的用做檢驗散列函數。這樣軟件下載的時候，就會對照驗證代碼以後才下載正確的文件部分。此代碼有可能由於環境因素的變化，如機器配置或者IP地址的改變而有變更。以保證源文件的安全性。

　　錯誤監測和修復函數主要用於辨別數據被隨機的過程所擾亂的事例。當散列函數被用於校驗和的時候，能夠用相對較短的散列值來驗證任意長度的數據是否被更改過。

編輯本段 散列表

　　散列表是散列函數的一個主要應用，使用散列表可以快速的按照關鍵字查找數據記錄。（注意：關鍵字不是像在加密中所使用的那樣是祕密的，但它們都是用來「解鎖」或者訪問數據的。）例如，在英語字典中的關鍵字是英文單詞，和它們相關的記錄包含這些單詞的定義。在這種狀況下，散列函數必須把按照字母順序排列的字符串映射到爲散列表的內部數組所建立的索引上。

　　散列表散列函數的幾乎不可能/不切實際的理想是把每一個關鍵字映射到惟一的索引上（參考完美散列），由於這樣可以保證直接訪問表中的每個數據。

　　一個好的散列函數（包括大多數加密散列函數）具備均勻的真正隨機輸出，於是平均只須要一兩次探測（依賴於裝填因子）就能找到目標。一樣重要的是，隨機散列函數幾乎不可能出現很是高的衝突率。可是，少許的能夠估計的衝突在實際情況下是不可避免的（參考生日悖論）。

　　在不少狀況下，heuristic散列函數所產生的衝突比隨機散列函數少的多。Heuristic函數利用了類似關鍵字的類似性。例如，能夠設計一個heuristic函數使得像FILE0000.CHK, FILE0001.CHK, FILE0002.CHK, 等等這樣的文件名映射到表的連續指針上，也就是說這樣的序列不會發生衝突。相比之下，對於一組好的關鍵字性能出色的隨機散列函數，對於一組壞的關鍵字常常性能不好，這種壞的關鍵字會天然產生而不只僅在攻擊中才出現。性能不佳的散列函數表意味着查找操做會退化爲費時的線性搜索。

編輯本段 錯誤校訂

　　使用一個散列函數能夠很直觀的檢測出數據在傳輸時發生的錯誤。在數據的發送方，對將要發送的數據應用散列函數，並將計算的結果同原始數據一同發送。在數據的接收方，一樣的散列函數被再一次應用到接收到的數據上，若是兩次散列函數計算出來的結果不一致，那麼就說明數據在傳輸的過程當中某些地方有錯誤了。這就叫作冗餘校驗。

　　對於錯誤校訂，假設類似擾動的分佈接近最小(a distribution of likely perturbations is assumed at least approximately)。對於一個信息串的微擾能夠被分爲兩類，大的（不可能的）錯誤和小的（可能的）錯誤。咱們對於第二類錯誤從新定義以下，假如給定 H(x) 和 x+s，那麼只要s足夠小，咱們就能有效的計算出x。那樣的散列函數被稱做錯誤校訂編碼。這些錯誤校訂編碼有兩個重要的分類：循環冗餘校驗和裏德所羅門碼。

編輯本段 語音識別

　　對於像從一個已知列表中匹配一個MP3文件這樣的應用，一種可能的方案是使用傳統的散列函數——例如MD5，可是這種方案會對時間平移、CD讀取錯誤、不一樣的音頻壓縮算法或者音量調整的實現機制等狀況很是敏感。使用一些相似於MD5的方法有利於迅速找到那些嚴格相同（從音頻文件的二進制數據來看）的音頻文件，可是要找到所有相同（從音頻文件的內容來看）的音頻文件就須要使用其餘更高級的算法了。

　　那些並不緊隨IT工業潮流的人每每能反其道而行之，對於那些微小差別足夠魯棒的散列函數確實存在。現存的絕大多數散列算法都是不夠魯棒的，可是有少數散列算法可以達到辨別從嘈雜房間裏的揚聲器裏播放出來的音樂的魯棒性。有一個實際的例子是Shazam[1]服務。用戶能夠用電話機撥打一個特定的號碼，並將電話機的話筒靠近用於播放音樂的揚聲器。該項服務會分析正在播放的音樂，並將它於存儲在數據庫中的已知的散列值進行比較。用戶就可以收到被識別的音樂的曲名（須要收取必定的費用）

　　什麼是文件的hash值呢?

　　你們都知道emule是基於P2P （Peer-to-peer的縮寫，指的是點對點的意思的軟件），它採用了"多源文件傳輸協議」(MFTP，the Multisource FileTransfer Protocol)。在協議中，定義了一系列傳輸、壓縮和打包還有積分的標準，emule 對於每一個文件都有md5-hash的算法設置，這使得該文件獨一無二，而且在整個網絡上均可以追蹤獲得。

　　MD5-Hash-文件的數字文摘經過Hash函數計算獲得。無論文件長度如何，它的Hash函數計算結果是一個固定長度的數字。與加密算法不一樣，這一個Hash算法是一個不可逆的單向函數。採用安全性高的Hash算法，如MD五、SHA時，兩個不一樣的文件幾乎不可能獲得相同的Hash結果。所以，一旦文件被修改，就可檢測出來。

　　當咱們的文件放到emule裏面進行共享發佈的時候，emule會根據hash算法自動生成這個文件的hash值，他就是這個文件惟一的身份標誌，它包含了這個文件的基本信息,而後把它提交到所鏈接的服務器。當有他人想對這個文件提出下載請求的時候，這個hash值可讓他人知道他正在下載的文件是否是就是他所想要的。尤爲是在文件的其餘屬性被更改以後（如名稱等）這個值就更顯得重要。並且服務器還提供了,這個文件當前所在的用戶的地址,端口等信息,這樣emule就知道到哪裏去下載了。

　　通常來說咱們要搜索一個文件，emule在獲得了這個信息後，會向被添加的服務器發出請求，要求獲得有相同hash值的文件。而服務器則返回持有這個文件的用戶信息。這樣咱們的客戶端就能夠直接的和擁有那個文件的用戶溝通，看看是否是能夠從他那裏下載所需的文件。

　　對於emule中文件的hash值是固定的，也是惟一的，它就至關於這個文件的信息摘要，不管這個文件在誰的機器上，他的hash值都是不變的，不管過了多長時間，這個值始終如一，當咱們在進行文件的下載上傳過程當中，emule都是經過這個值來肯定文件。

　　那麼什麼是userhash呢?

　　道理同上，當咱們在第一次使用emule的時候，emule會自動生成一個值，這個值也是惟一的，它是咱們在emule世界裏面的標誌，只要你不卸載，不刪除config，你的userhash值也就永遠不變，積分制度就是經過這個值在起做用，emule裏面的積分保存，身份識別，都是使用這個值，而和你的id和你的用戶名無關，你隨便怎麼改這些東西，你的userhash值都是不變的，這也充分保證了公平性。其實他也是一個信息摘要，只不過保存的不是文件信息，而是咱們每一個人的信息。

　　那麼什麼是hash文件呢?

　　咱們常常在emule日至裏面看到，emule正在hash文件，這裏就是利用了hash算法的文件校驗性這個功能了，文章前面已經說了一些這些功能，其實這部分是一個很是複雜的過程，目前在ftp,bt等軟件裏面都是用的這個基本原理，emule裏面是採用文件分塊傳輸，這樣傳輸的每一塊都要進行對比校驗，若是錯誤則要進行從新下載，這期間這些相關信息寫入met文件，直到整個任務完成，這個時候part文件進行從新命名，而後使用move命令，把它傳送到incoming文件裏面，而後met文件自動刪除，因此咱們有的時候會遇到hash文件失敗，就是指的是met裏面的信息出了錯誤不可以和part文件匹配，另外有的時候開機也要瘋狂hash，有兩種狀況一種是你在第一次使用，這個時候要hash提取全部文件信息，還有一種狀況就是上一次你非法關機，那麼這個時候就是要進行排錯校驗了。

　　關於hash的算法研究，一直是信息科學裏面的一個前沿，尤爲在網絡技術普及的今天，他的重要性愈來愈突出，其實咱們天天在網上進行的信息交流安全驗證，咱們在使用的操做系統密鑰原理，裏面都有它的身影，特別對於那些研究信息安全有興趣的朋友，這更是一個打開信息世界的鑰匙，他在hack世界裏面也是一個研究的焦點。

　　經常使用HASH函數

　　·直接取餘法： f(x):= x mod maxM ; maxM通常是不太接近 2^t 的一個質數。

　　·乘法取整法： f(x):=trunc((x/maxX)*maxlongit) mod maxM，主要用於實數。

　　·平方取中法： f(x):=(x*x div 1000 ) mod 1000000); 平方後取中間的，每位包含信息比較多。