4 哈希函數(Hash Function)的定義
- 從十進制角度看,若是產生的數據在0-10000之間,也就是4位十進制數時,就能夠建立一個10000個數據的數組,用哈希函數的結果作爲索引值。
- 從二進制角度看,若是產生的數據在0-0x7F之間,也就是8位二進制數時,就能夠建立一個128個數據的數組,用哈希函數的結果作爲索引值。
5 如何設計合適的哈希函數
( n * Z ) % S
(1*211) % 8 = 3 (67*211) % 8 = 1
(2*211) % 8 = 6 (68*211) % 8 = 4
(3*211) % 8 = 1 (69*211) % 8 = 7
(4*211) % 8 = 4 (70*211) % 8 = 2
(5*211) % 8 = 7 (71*211) % 8 = 5
(6*211) % 8 = 2 (72*211) % 8 = 0
(7*211) % 8 = 5 (73*211) % 8 = 3
(8*211) % 8 = 0 (74*211) % 8 = 6
因此對於上面花名冊的例子,若是能夠將名字通過哈希運算獲得0到10000之間的數值,就能夠實現快速查詢。因爲字符在電腦中一般用Unicode代碼表示,查出名字的Unicode代碼,「張」的Unicode十進制代碼爲24352,「三」的Unicode十進制代碼爲19977,選取質數9656717,進行如下運算:((24352 + 19977) * 9656717) % 10000 = 5168。這樣就獲得了0到10000之間的數值,參照以前的例子,就能夠構造一個數組來加快查詢。
5.1 java.lang.String類中字符串的哈希函數
在Oracle公司的Java API實現中,String類的hashcode()函數計算了字符串的哈希值,源代碼以下。從註釋和程序中能夠看出,計算公式爲hashall = s[0]*31^(n-1) + s[1]*31^(n-2) + ... + s[n-1],是將字符串各個字符的UTF-16代碼乘以31的ni次方後相加獲得的。31爲質數,31^(ni)雖然不是質數,可是性質接近質數。但並無發現顯式的求模運算%,這是由int類型數據算術運算後獲得的,若是值超過了int類型的最大值時,高位被自動拋棄,這就至關於對2147483648(十六進制0x7FFF)求模,因此結果在0到2147483648之間。
public int hashCode() {
int h = hash;
if (h == 0 && value.length > 0) {
char val[] = value;
for (int i = 0; i < value.length; i++) {
h = 31 * h + val[i];
hash = h;
return h;
6 Java API中的HashMap類實現簡介
6.1 HashMap類中哈希值的計算方法
類中的哈希值是經過final int hash(Object k)函數實現的,首先根據鍵(key)對象的hashcode函數計算鍵對象的hash值:k.hashCode(),而後內部再進行相應的移位和求異或運算,獲得內部使用的hash值。能夠看出hash值由int類型表示,則其值在0到Interger.MAX_VALUE之間。但實際內部存儲用的數組長度由HashMap的容量決定,因此根據hash值獲得對象在數組中的索引值,還須要近一步計算,下段中進行了說明。
final int hash(Object k) {
int h = 0;
if (useAltHashing) {//因爲沒看完整的源代碼,此處目的沒看明白,根據字面理解多是其它基於此類的之類,若是不滿意默認的哈希函數算法,可使用此算法代替。
if (k instanceof String) {
return sun.misc.Hashing.stringHash32((String) k);
h = hashSeed;
h ^= k.hashCode();//計算鍵對象的hash值,以後與0求異或運算
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4); //移位異或運算等,使hash值更分散下降衝突可能
6.2 根據鍵(key)對象查詢值(value)對象
首先public V get(Object key)函數中,調用getEntry(key)函數,由鍵對象得到相應值的Entry<K,V>的地址entry。
而後由indexFor(hash, table.length)函數根據hash值得到Entry<K,V>[]數組的索引值,該函數中h & (length-1)運算將hash值由原來的0到Interger.MAX_VALUE之間映射到0到(length-1)之間,這樣就能夠看成該數組的索引值。
而後Entry<K,V> e = table[indexFor(hash, table.length)]根據索引值,將須要的數據找到。
for程序段中,若是有衝突,則依次遍歷此鏈表,找到與指定鍵對象對應的值對象。將Entry<K,V>對象返回get(Object key)函數。
最後get(Object key)函數調用entry.getValue()得到相應的值對象。
public V get(Object key) {
if (key == null)
return getForNullKey();
Entry<K,V> entry = getEntry(key);
return null == entry ? null : entry.getValue();
final Entry<K,V> getEntry(Object key) {
int hash = (key == null) ? 0 : hash(key);
for (Entry<K,V> e = table[indexFor(hash, table.length)];
e != null;
e = e.next) {
Object k;
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
return null;
static int indexFor(int h, int length) {
return h & (length-1);
6.3 HashMap類的容量
public HashMap() {
類始終保持類中保存的數據量小於門限(threshold) = 容量(capacity)* 填充率(loadFactor)。每次添加的新的數據時,都檢測數據量(size)是否超過門限(threshold)。若是超限則調用resize(2 * table.length)函數,將類的容量增大。源代碼以下:
void addEntry(int hash, K key, V value, int bucketIndex) {
if ((size >= threshold) && (null != table[bucketIndex])) {
resize(2 * table.length);
hash = (null != key) ? hash(key) : 0;
bucketIndex = indexFor(hash, table.length);
createEntry(hash, key, value, bucketIndex);
6.4 調整HashMap類的容量對性能的影響
調整HashMap類的容量的函數resize(int newCapacity)源代碼以下,從新調整大小,須要新建一個Entry[]數組,而後調用transfer(newTable, rehash)函數將以前數組中的值調整到新數組中。
transfer(newTable, rehash)函數中調用hash(e.key)函數從新計算了鍵對象的哈希值,根據哈希值將舊Entry[]數組中數據放到新Entry[]數組中。
- 新建一個Entry[]數組,須要格外的空間
- 從新計算了鍵對象的哈希值,須要格外的運行時間
- 因爲Entry[]數組長度變化,各元素在HashMap中的內部位置發生了改變
void resize(int newCapacity) {
Entry[] oldTable = table;
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
Entry[] newTable = new Entry[newCapacity];
boolean oldAltHashing = useAltHashing;
useAltHashing |= sun.misc.VM.isBooted() &&
boolean rehash = oldAltHashing ^ useAltHashing;
transfer(newTable, rehash);
table = newTable;
threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
void transfer(Entry[] newTable, boolean rehash) {
int newCapacity = newTable.length;
for (Entry<K,V> e : table) {
while(null != e) {
Entry<K,V> next = e.next;
if (rehash) {
e.hash = null == e.key ? 0 : hash(e.key);
int i = indexFor(e.hash, newCapacity);
e.next = newTable[i];
newTable[i] = e;
e = next;
6.5 最後一個例子,電話簿PhoneBook
以前示例中的電話簿中沒有人名,這裏添加人名。PhoneBook 擴展了HashMap類。這樣能夠直接使用其函數。電話簿中的每條內容由<String 人名, String 號碼>組成。將人名做爲鍵,號碼做爲值,因此能夠根據人名得到他/她的電話號碼。
import java.util.HashMap;
// PhoneBook 擴展了HashMap類。這樣能夠直接使用其函數。
// 電話簿中的每條內容由<String 人名, String 號碼>組成。
// 將人名做爲鍵,號碼做爲值,因此能夠根據人名得到他/她的電話號碼
public class PhoneBook extends HashMap<String,String> {
public static void main(String[] args) {
PhoneBook pb = new PhoneBook();
String[][] intial = new String[][]{
{ "張三","286 3545 1285" },
{ "李四","250 4592 8502" },
{ "王五","239 2085 1032" },
{ "趙六","230 1932 0543" },
{ "王二麻子","259 1937 1408" },
{ "段譽","251 8592 1459" },
{ "王語嫣","252 2309 7934" },
{ "虛竹","249 2942 9285" },
{ "夢姑","289 0103 8482" },
{ "喬峯","279 0094 1342" }
for(int i = 0; i < intial.length; i++) {
pb.put(intial[i][0], intial[i][1]);
System.out.println("電話簿中共保存了" + pb.size() + "個電話號碼。" );
String name = new String("喬峯");
Boolean bl = pb.containsKey(name);//查詢是否包含該人名
System.out.println("電話簿中" + ( bl ? "查到" : "未查到" ) + name
+ "的電話號碼。"
+ ( bl ? ("電話號碼是" + pb.get(name) + "。") : ""));
name = new String("王語嫣");
bl = pb.containsKey(name);
System.out.println("電話簿中" + ( bl ? "查到" : "未查到" ) + name
+ "的電話號碼。"
+ ( bl ? ("電話號碼是" + pb.get(name) + "。") : ""));
name = new String("星秀老仙");
bl = pb.containsKey(name);
System.out.println("電話簿中" + ( bl ? "查到" : "未查到" ) + name
+ "的電話號碼。"
+ ( bl ? ("電話號碼是" + pb.get(name) + "。") : ""));
電話簿中查到喬峯的電話號碼。電話號碼是279 0094 1342。
電話簿中查到王語嫣的電話號碼。電話號碼是252 2309 7934。
7 參考資料
