hash算法

哈希是一種最多見算法,天天和哈希緊密相連。redis用的哈希算法DJB, MurmurHash, 還有常見的FNV.nginx

1.DJBHash是一種很是流行的算法,俗稱"Times33"算法。Times33的算法很簡單,就是不斷的乘33,原型以下
hash(i) = hash(i-1) * 33 + str[i]
Time33在效率和隨機性兩方面上俱佳。c++

 

/* the famous DJB Hash Function for strings */redis

unsigned int DJBHash(char *str)算法

{memcached

unsigned int hash = 5381;函數

while (*str){oop

hash = ((hash << 5) + hash) + (*str++); /* times 33 */性能

}ui

hash &= ~(1 << 31); /* strip the highest bit */編碼

return hash;

}

2.MurmurHash

MurmurHash算法:高運算性能,低碰撞率,由Austin Appleby建立於2008年,現已應用到Hadoop、libstdc++、nginx、libmemcached等開源系統。2011年Appleby被Google僱傭,隨後Google推出其變種的CityHash算法

 

 

uint32_t

murmur_hash2(char *data, size_t len)

{

uint32_t h, k;

 

h = 0 ^ len;

 

while (len >= 4) {

k = data[0];

k |= data[1] << 8;

k |= data[2] << 16;

k |= data[3] << 24;

 

k *= 0x5bd1e995;

k ^= k >> 24;

k *= 0x5bd1e995;

 

h *= 0x5bd1e995;

h ^= k;

 

data += 4;

len -= 4;

}

 

switch (len) {

case 3:

h ^= data[2] << 16;

case 2:

h ^= data[1] << 8;

case 1:

h ^= data[0];

h *= 0x5bd1e995;

}

 

h ^= h >> 13;

h *= 0x5bd1e995;

h ^= h >> 15;

 

return h;

}

3. FNV
由來:FNV哈希算法全名爲Fowler-Noll-Vo算法,是以三位發明人Glenn Fowler,Landon Curt Noll,Phong Vo的名字來命名的,最先在1991年提出。

特色和用途:FNV能快速hash大量數據並保持較小的衝突率,它的高度分散使它適用於hash一些很是相近的字符串,好比URL,hostname,文件名,text,IP地址等。

算法版本:FNV算法有三個版本:FNV-0(已廢棄)、FNV-1和FNV-1a

4.

經常使用字符串哈希函數有BKDRHash,APHash,DJBHash,JSHash,RSHash,SDBMHash,PJWHash,ELFHash等等。對於以上幾種哈希函數,我對其進行了一個小小的評測。

 

 

Hash函數 數據1 數據2 數據3 數據4 數據1得分 數據2得分 數據3得分 數據4得分 平均分
BKDRHash 2 0 4774 481 96.55 100 90.95 82.05 92.64
APHash 2 3 4754 493 96.55 88.46 100 51.28 86.28
DJBHash 2 2 4975 474 96.55 92.31 0 100 83.43
JSHash 1 4 4761 506 100 84.62 96.83 17.95 81.94
RSHash 1 0 4861 505 100 100 51.58 20.51 75.96
SDBMHash 3 2 4849 504 93.1 92.31 57.01 23.08 72.41
PJWHash 30 26 4878 513 0 0 43.89 0 21.95
ELFHash 30 26 4878 513 0 0 43.89 0 21.95

 

其中數據1爲100000個字母和數字組成的隨機串哈希衝突個數。數據2爲100000個有意義的英文句子哈希衝突個數。數據3爲數據1的哈希值與1000003(大素數)求模後存儲到線性表中衝突的個數。數據4爲數據1的哈希值與10000019(更大素數)求模後存儲到線性表中衝突的個數。

通過比較,得出以上平均得分。平均數爲平方平均數。能夠發現,BKDRHash不管是在實際效果仍是編碼實現中,效果都是最突出的。APHash也是較爲優秀的算法。DJBHash,JSHash,RSHash與SDBMHash各有千秋。PJWHash與ELFHash效果最差,但得分類似,其算法本質是類似的。

在信息修競賽中,要本着易於編碼調試的原則,我的認爲BKDRHash是最適合記憶和使用的

相關文章
相關標籤/搜索