祝願你們不要像菜菜這般苦逼,年中獎大大滴
在沒有年終獎的日子裏,工做依然還要繼續.....一張冰與火的圖盡顯無奈
還記得菜菜不久以前設計的用戶空間嗎?沒看過的同窗請進傳送門=》設計高性能訪客記錄系統算法
還記得遺留的什麼問題嗎?菜菜來重複一下,在用戶訪問記錄的緩存中怎麼來判斷是否有當前用戶的記錄呢?鏈表雖然是咱們這個業務場景最主要的數據結構,但並非當前這個問題最好的解決方案,因此咱們須要一種能快速訪問元素的數據結構來解決這個問題?那就是今天咱們要談一談的 散列表c#
散列表(Hash table,也叫哈希表),是根據關鍵碼值(Key value)而直接進行訪問的數據結構。也就是說,它經過把關鍵碼值映射到表中一個位置來訪問記錄,以加快查找的速度。這個映射函數叫作散列函數,存放記錄的數組叫作散列表。
散列表其實能夠約等於咱們常說的Key-Value形式。
散列表用的是數組支持按照下標隨機訪問數據的特性,因此散列表其實就是數組的一種擴展,由數組演化而來。能夠說,若是沒有數組,就沒有散列表。爲何要用數組呢?由於數組按照下標來訪問元素的時間複雜度爲O(1),不明白的同窗能夠參考菜菜之前的關於數組的文章。既然要按照數組的下標來訪問元素,必然也必須考慮怎麼樣才能把Key轉化爲下標。這就是接下來要談一談的散列函數。
散列函數通俗來說就是把一個Key轉化爲數組下標的黑盒。散列函數在散列表中起着很是關鍵的做用。
散列函數,顧名思義,它是一個函數。咱們能夠把它定義成hash(key),其中 key 表示元素的鍵值,hash(key) 的值表示通過散列函數計算獲得的散列值。
那一個散列函數有哪些要求呢?數組
簡單說一下以上三點,第一點:由於散列值其實就是數組的下標,因此必須是非負整數(>=0),第二點:同一個key計算的散列值必須相同。
重點說一下第三點,其實第三點只是理論上的,咱們想象着不一樣的Key獲得的散列值應該不一樣,可是事實上,這一點很難作到。咱們能夠反證一下,若是這個公式成立,我計算無限個Key的散列值,那散列表底層的數組必須作到無限大才行。像業界比較著名的MD五、SHA等哈希算法,也沒法徹底避免這樣的衝突。固然若是底層的數組越小,這種衝突的概率就越大。因此一個完美的散列函數實際上是不存在的,即使存在,付出的時間成本,人力成本可能超乎想象。緩存
既然再好的散列函數都沒法避免散列衝突,那咱們就必須尋找其餘途徑來解決這個問題。網絡
若是遇到衝突的時候怎麼辦呢?方法之一是在衝突的位置開始找數組中空餘的空間,找到空餘的空間而後插入。就像你去商店買東西,發現東西賣光了,怎麼辦呢?找下一家有東西賣的商家買唄。
無論採用哪一種探測方法,當散列表中空閒位置很少的時候,散列衝突的機率就會大大提升。爲了儘量保證散列表的操做效率,通常狀況下,咱們會盡量保證散列表中有必定比例的空閒槽位。咱們用裝載因子(load factor)來表示空位的多少。數據結構
散列表的裝載因子 = 填入表中的元素個數 / 散列表的長度
裝載因子越大,說明空閒位置越少,衝突越多,散列表的性能會降低. 假設散列函數爲 f=(key%1000),以下圖所示
多線程
拉鍊法屬於一種最經常使用的解決散列值衝突的方式。基本思想是數組的每一個元素指向一個鏈表,當散列值衝突的時候,在鏈表的末尾增長新元素。查找的時候同理,根據散列值定位到數組位置以後,而後沿着鏈表查找元素。若是散列函數設計的很是糟糕的話,相同的散列值很是多的話,散列表元素的查找會退化成鏈表查找,時間複雜度退化成O(n)
框架
這種方式本質上是計算屢次散列值,那就必然須要多個散列函數,在產生衝突時再使用另外一個散列函數計算散列值,直到衝突再也不發生,這種方法不易產生「彙集」,但增長了計算時間。分佈式
至於這種方案網絡上介紹的比較少,通常應用的也比較少。能夠這樣理解:散列值衝突的元素放到另外的容器中,固然容器的選擇有多是數組,有多是鏈表甚至隊列均可以。可是不管是什麼,想要保證散列表的優勢仍是須要慎重考慮這個容器的選擇。函數
有幾個地方菜菜須要在強調一下:
用戶訪問記錄的實體
class UserViewInfo { //用戶ID public int UserId { get; set; } //訪問時間,utc時間戳 public int Time { get; set; } //用戶姓名 public string UserName { get; set; } }
用戶空間添加訪問記錄的代碼
class UserSpace { //緩存的最大數量 const int CacheLimit = 1000; //這裏用雙向鏈表來緩存用戶空間的訪問記錄 LinkedList<UserViewInfo> cacheUserViewInfo = new LinkedList<UserViewInfo>(); //這裏用哈希表的變種Dictionary來存儲訪問記錄,實現快速訪問,同時設置容量大於緩存的數量限制,減少哈希衝突 Dictionary<int, UserViewInfo> dicUserView = new Dictionary<int, UserViewInfo>(1250); //添加用戶的訪問記錄 public void AddUserView(UserViewInfo uv) { //首先查找緩存列表中是否存在,利用hashtable來實現快速查找 if (dicUserView.TryGetValue(uv.UserId, out UserViewInfo currentUserView)) { //若是存在,則把該用戶訪問記錄從緩存當前位置移除,添加到頭位置 cacheUserViewInfo.Remove(currentUserView); cacheUserViewInfo.AddFirst(currentUserView); } else { //若是不存在,則添加到緩存頭部 並添加到哈希表中 cacheUserViewInfo.AddFirst(uv); dicUserView.Add(uv.UserId, uv); } //這裏每次都判斷一下緩存是否超過限制 if (cacheUserViewInfo.Count > CacheLimit) { //移除緩存最後一個元素,並從hashtable中刪除,理論上來講,dictionary的內部會兩個指針指向首元素和尾元素,因此查找這兩個元素的時間複雜度爲O(1) var lastItem = cacheUserViewInfo.Last.Value; dicUserView.Remove(lastItem.UserId); cacheUserViewInfo.RemoveLast(); } } }
添加關注,查看更精美版本,收穫更多精彩