哈希是一種最多見算法,天天和哈希緊密相連。redis用的哈希算法DJB, MurmurHash, 還有常見的FNV.nginx
1.DJBHash是一種很是流行的算法,俗稱"Times33"算法。Times33的算法很簡單,就是不斷的乘33,原型以下
hash(i) = hash(i-1) * 33 + str[i]
Time33在效率和隨機性兩方面上俱佳。c++
|
/* the famous DJB Hash Function for strings */redis unsigned int DJBHash(char *str)算法 {memcached unsigned int hash = 5381;函數 while (*str){oop hash = ((hash << 5) + hash) + (*str++); /* times 33 */性能 }ui hash &= ~(1 << 31); /* strip the highest bit */編碼 return hash; } |
2.MurmurHash
MurmurHash算法:高運算性能,低碰撞率,由Austin Appleby建立於2008年,現已應用到Hadoop、libstdc++、nginx、libmemcached等開源系統。2011年Appleby被Google僱傭,隨後Google推出其變種的CityHash算法
|
uint32_t murmur_hash2(char *data, size_t len) { uint32_t h, k;
h = 0 ^ len;
while (len >= 4) { k = data[0]; k |= data[1] << 8; k |= data[2] << 16; k |= data[3] << 24;
k *= 0x5bd1e995; k ^= k >> 24; k *= 0x5bd1e995;
h *= 0x5bd1e995; h ^= k;
data += 4; len -= 4; }
switch (len) { case 3: h ^= data[2] << 16; case 2: h ^= data[1] << 8; case 1: h ^= data[0]; h *= 0x5bd1e995; }
h ^= h >> 13; h *= 0x5bd1e995; h ^= h >> 15;
return h; } 3. FNV 特色和用途:FNV能快速hash大量數據並保持較小的衝突率,它的高度分散使它適用於hash一些很是相近的字符串,好比URL,hostname,文件名,text,IP地址等。 算法版本:FNV算法有三個版本:FNV-0(已廢棄)、FNV-1和FNV-1a 4. 經常使用字符串哈希函數有BKDRHash,APHash,DJBHash,JSHash,RSHash,SDBMHash,PJWHash,ELFHash等等。對於以上幾種哈希函數,我對其進行了一個小小的評測。
其中數據1爲100000個字母和數字組成的隨機串哈希衝突個數。數據2爲100000個有意義的英文句子哈希衝突個數。數據3爲數據1的哈希值與1000003(大素數)求模後存儲到線性表中衝突的個數。數據4爲數據1的哈希值與10000019(更大素數)求模後存儲到線性表中衝突的個數。 通過比較,得出以上平均得分。平均數爲平方平均數。能夠發現,BKDRHash不管是在實際效果仍是編碼實現中,效果都是最突出的。APHash也是較爲優秀的算法。DJBHash,JSHash,RSHash與SDBMHash各有千秋。PJWHash與ELFHash效果最差,但得分類似,其算法本質是類似的。 在信息修競賽中,要本着易於編碼調試的原則,我的認爲BKDRHash是最適合記憶和使用的 |