探索C#之布隆過濾器(Bloom filter)

時間 2019-12-01

標籤探索 c# 過濾器 bloom filter 欄目 C# 简体版

原文原文鏈接

閱讀目錄：html

背景介紹

Bloom filter(後面簡稱BF)是Bloom在1970年提出的二進制向量數據結構。通俗來講就是在大數據集合下高效判斷某個成員是否屬於這個集合。BF其優勢在於：算法

插入和查詢複雜度都是O(n)
空間利用率極高。

例子1：

像Yahoo這類的公共郵件服務提供商，老是須要過濾垃圾郵件。假設有50億個郵件地址，須要存儲過濾的方法有：數據庫

全部郵件地址都存儲到數據庫。
缺點：每次都須要查詢數據庫，效率低。
使用Hashtable保存到內存裏，接近O(1)的查詢效率。
缺點：太佔內存，假定每一個地址須要十六個字符，50億個須要180G內存。
建立位數組，將每一個郵件地址用Hash函數映射到位數組中的某一位。
缺點： 單個Hash函數衝突過高，會發生多個郵件會映射到同一位上。

而使用BF能夠最大限度避免上述缺點，使其能夠在更小空間上，進行高效插入和查詢。數組

例子2：

常用緩存的確定知道，命中率是個永遠的話題。特別是在分佈式緩存中，每次不命中就意味着一次跨網絡通訊的浪費，無端增長緩存服務器壓力。使用BF能夠在很大程度上提升緩存命中率。緩存

算法原理

BF很合適解決相似上面的問題。 BF和例子1中的第三種方法很是相似了。不一樣的是，BF對同一個郵件地址使用多個不一樣的Hash函數，再去映射位數組的中對應位置。服務器

算法步驟：

建立長度爲m的位數組，所有置爲0。
取出郵件地址集合(m)中的某一個地址(a), 分別使用k個hash函數對a計算。
將結果分別映射到位數組中，並設置爲1。
其餘成員依次處理。

以函數個數k=8來算，50億個郵件地址只須要5G內存足夠了，比例子1中方法2節省32倍空間。網絡

當查詢成員a時是否在垃圾郵件集合m中時，使用一樣k個hash函數進行計算，若是k個結果在位數組中的位值都是1，則判斷a屬於m集合中，即a郵件地址屬於垃圾郵件地址集合m(a∈m)。數據結構

關於例子2，能夠將全部key存儲到本地內存中，每次遠程獲取緩存時，優先在內存集合中判斷是否存在。分佈式

存在？去遠程獲取實際緩存內容。
不存在？直接返回，無需再去遠程緩存服務器判斷。

這樣能極大提升緩存命中率，由於BF存在誤判率，全部並不能達到100%(在key的數量級不高時，用其餘方法全存下來也能夠)。如圖：函數

誤判率

由於BF使用Hash函數來取得成員的特徵(可理解爲成員的指紋信息)，並無在位數組中存儲集合內的實際數據內容，因此空間利用率極高，但存在個潛在問題，就是查詢某個成員是否屬於集合時，會發生誤判(False positive)。也就是說，某個成員實際不在集合中，但BF會得出在集中的結論。因此BF適用於容許發生必定誤判的場景，如例子一、2中少許過濾失敗或去服務器拿都是能夠接受的。

爲何會有誤判?

假定有一個長度12的位數組，使用3個hash函數，根據算法計算成員a得出三、七、11位置，並在位數組中設置爲1。另外個成員b根據算法也計算得出三、七、11，去位數組檢查其位值時，就發現三、七、11都爲1是存在的，而實際不存在(1是成員a設置的)，此時就發生了誤判現象。

BF會發生誤判，但不會發生漏判(False Negative)，即成員實際在集合中，那麼BF必定能判斷出在集合中，由於成員對應的位置都設置爲1了。

可控制性

根據其數組長度m、集合大小n、hash函數個數k、誤判率p，簡單得出下：

其餘不變，集合大小n越大，越多位被設置1，誤判率p越大。
其餘不變，數組漲肚m越大，剩餘爲0的位越多，誤判率p越小
其餘不變，添加時k越多，位數組越多被設置爲1，即會增大誤判率。查詢時k越多，明顯誤判率可能就會越小。

hash函數個數取值公式 k = ln 2 * m/n 。

其餘它關係公式見wiki。

BF改進

基本的BF在使用時有個缺點：沒法刪除集合成員a，只能增長其成員並對其查詢。有一個很容易想到但錯誤的方法是：若是要刪除成員a，那麼先用k個hash函數對其計算，由於a已是集合成員，那麼其對應的位數組的位置必定被設置爲1，因此只要將對應位置從新設置爲0便可。緣由就是位數組的位置不但只提供給a使用，也給其餘成員使用，一旦設置爲0就會影響其餘成員的使用。

好比上面中提升緩存命中率的例子，不能刪除成員意味着實際緩存也不能刪除。若是實際緩存刪除了，而在集合中的數據沒法刪除，就會發生漏判現象。這樣的話就會大大限制BF的使用場景。