【分享】布隆過濾器

 

 

布隆過濾器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它其實是由一個很長的二進制向量和一系列隨機映射函數組成,布隆過濾器能夠用於檢索一個元素是否在一個集合中。它的優勢是空間效率和查詢時間都遠遠超過通常的算法,缺點是有必定的誤識別率(假正例False positives,即Bloom Filter報告某一元素存在於某集合中,可是實際上該元素並不在集合中)和刪除困難,可是沒有識別錯誤的情形(即假反例False negatives,若是某個元素確實沒有在該集合中,那麼Bloom Filter 是不會報告該元素存在於集合中的,因此不會漏報)。html

在平常生活中,包括在設計計算機軟件時,咱們常常要判斷一個元素是否在一個集合中。好比在字處理軟件中,須要檢查一個英語單詞是否拼寫正確(也就是要判斷 它是否在已知的字典中);在 FBI,一個嫌疑人的名字是否已經在嫌疑名單上;在網絡爬蟲裏,一個網址是否被訪問過等等。最直接的方法就是將集合中所有的元素存在計算機中,遇到一個新 元素時,將它和集合中的元素直接比較便可。通常來說,計算機中的集合是用哈希表(hash table)來存儲的。它的好處是快速準確,缺點是費存儲空間。當集合比較小時,這個問題不顯著,可是當集合巨大時,哈希表存儲效率低的問題就顯現出來 了。好比說,一個象 Yahoo,Hotmail 和 Gmai 那樣的公衆電子郵件(email)提供商,老是須要過濾來自發送垃圾郵件的人(spamer)的垃圾郵件。一個辦法就是記錄下那些發垃圾郵件的 email 地址。因爲那些發送者不停地在註冊新的地址,全世界少說也有幾十億個發垃圾郵件的地址,將他們都存起來則須要大量的網絡服務器。若是用哈希表,每存儲一億 個 email 地址, 就須要 1.6GB 的內存(用哈希表實現的具體辦法是將每個 email 地址對應成一個八字節的信息指紋(詳見:googlechinablog.com/2006/08/blog-post.html), 而後將這些信息指紋存入哈希表,因爲哈希表的存儲效率通常只有 50%,所以一個 email 地址須要佔用十六個字節。一億個地址大約要 1.6GB, 即十六億字節的內存)。所以存貯幾十億個郵件地址可能須要上百 GB 的內存。除非是超級計算機,通常服務器是沒法存儲的[2]。(該段引用谷歌數學之美:http://www.google.com.hk/ggblog/googlechinablog/2007/07/bloom-filter_7469.html)node

基本概念

若是想判斷一個元素是否是在一個集合裏,通常想到的是將全部元素保存起來,而後經過比較肯定。鏈表,樹等等數據結構都是這種思路. 可是隨着集合中元素的增長,咱們須要的存儲空間愈來愈大,檢索速度也愈來愈慢。不過世界上還有一種叫做散列表(又叫哈希表,Hash table)的數據結構。它能夠經過一個Hash函數將一個元素映射成一個位陣列(Bit Array)中的一個點。這樣一來,咱們只要看看這個點是否是 1 就知道能夠集合中有沒有它了。這就是布隆過濾器的基本思想。web

Hash面臨的問題就是衝突。假設 Hash 函數是良好的,若是咱們的位陣列長度爲 m 個點,那麼若是咱們想將衝突率下降到例如 1%, 這個散列表就只能容納 m/100 個元素。顯然這就不叫空間有效了(Space-efficient)。解決方法也簡單,就是使用多個 Hash,若是它們有一個說元素不在集合中,那確定就不在。若是它們都說在,雖然也有必定可能性它們在說謊,不過直覺上判斷這種事情的機率是比較低的。算法

算法描述

一個empty bloom filter是一個有m bits的bit array,每個bit位都初始化爲0。而且定義有k個不一樣的hash function,每一個都以uniform random distribution將元素hash到m個不一樣位置中的一個。在下面的介紹中n爲元素數,m爲布隆過濾器或哈希表的slot數,k爲布隆過濾器重hash function數。爲了add一個元素,用k個hash function將它hash獲得bloom filter中k個bit位,將這k個bit位置1。爲了query一個元素,即判斷它是否在集合中,用k個hash function將它hash獲得k個bit位。若這k bits全爲1,則此元素在集合中;若其中任一位不爲1,則此元素比不在集合中(由於若是在,則在add時已經把對應的k個bits位置爲1)。不容許remove元素,由於那樣的話會把相應的k個bits位置爲0,而其中頗有可能有其餘元素對應的位。所以remove會引入false negative,這是絕對不被容許的。當k很大時,設計k個獨立的hash function是不現實而且困難的。對於一個輸出範圍很大的hash function(例如MD5產生的128 bits數),若是不一樣bit位的相關性很小,則可把此輸出分割爲k份。或者可將k個不一樣的初始值(例如0,1,2, … ,k-1)結合元素,feed給一個hash function從而產生k個不一樣的數。當add的元素過多時,即n/m過大時(n是元素數,m是bloom filter的bits數),會致使false positive太高,此時就須要從新組建filter,但這種狀況相對少見。chrome

優勢

相比於其它的數據結構,布隆過濾器在空間和時間方面都有巨大的優點。布隆過濾器存儲空間和插入/查詢時間都是常數。另外, Hash 函數相互之間沒有關係,方便由硬件並行實現。布隆過濾器不須要存儲元素自己,在某些對保密要求很是嚴格的場合有優點。數據庫

布隆過濾器能夠表示全集,其它任何數據結構都不能;數組

k 和 m 相同,使用同一組 Hash 函數的兩個布隆過濾器的交併差運算可使用位操做進行。瀏覽器

缺點

可是布隆過濾器的缺點和優勢同樣明顯。誤算率(False Positive)是其中之一。隨着存入的元素數量增長,誤算率隨之增長。可是若是元素數量太少,則使用散列表足矣。緩存

另外,通常狀況下不能從布隆過濾器中刪除元素. 咱們很容易想到把位列陣變成整數數組,每插入一個元素相應的計數器加1, 這樣刪除元素時將計數器減掉就能夠了。然而要保證安全的刪除元素並不是如此簡單。首先咱們必須保證刪除的元素的確在布隆過濾器裏面. 這一點單憑這個過濾器是沒法保證的。另外計數器迴繞也會形成問題。安全

False positives 機率推導

假設 Hash 函數以等機率條件選擇並設置 Bit Array 中的某一位,m 是該位數組的大小,k 是 Hash 函數的個數,那麼位數組中某一特定的位在進行元素插入時的 Hash 操做中沒有被置位的機率是:

那麼在全部 k 次 Hash 操做後該位都沒有被置 "1" 的機率是:

若是咱們插入了 n 個元素,那麼某一位仍然爲 "0" 的機率是:

於是該位爲 "1"的機率是:

如今檢測某一元素是否在該集合中。標明某個元素是否在集合中所需的 k 個位置都按照如上的方法設置爲 "1",可是該方法可能會使算法錯誤的認爲某一本來不在集合中的元素卻被檢測爲在該集合中(False Positives),該機率由如下公式肯定:

其實上述結果是在假定由每一個 Hash 計算出須要設置的位(bit) 的位置是相互獨立爲前提計算出來的,不難看出,隨着 m (位數組大小)的增長,假正例(False Positives)的機率會降低,同時隨着插入元素個數 n 的增長,False Positives的機率又會上升,對於給定的m,n,如何選擇Hash函數個數 k 由如下公式肯定:

此時False Positives的機率爲:

而對於給定的False Positives機率 p,如何選擇最優的位數組大小 m 呢,

上式代表,位數組的大小最好與插入元素的個數成線性關係,對於給定的 m,n,k,假正例機率最大爲:

 

下圖是布隆過濾器假正例機率 p 與位數組大小 m 和集合中插入元素個數 n 的關係圖,假定 Hash 函數個數選取最優數目:

 

Bloom Filter 用例

Google 著名的分佈式數據庫 Bigtable 使用了布隆過濾器來查找不存在的行或列,以減小磁盤查找的IO次數[3]。

Squid 網頁代理緩存服務器在 cache digests 中使用了也布隆過濾器[4]。

Venti 文檔存儲系統也採用布隆過濾器來檢測先前存儲的數據[5]。

SPIN 模型檢測器也使用布隆過濾器在大規模驗證問題時跟蹤可達狀態空間[6]。

Google Chrome瀏覽器使用了布隆過濾器加速安全瀏覽服務[7]。

在不少Key-Value系統中也使用了布隆過濾器來加快查詢過程,如 Hbase,Accumulo,Leveldb,通常而言,Value 保存在磁盤中,訪問磁盤須要花費大量時間,然而使用布隆過濾器能夠快速判斷某個Key對應的Value是否存在,所以能夠避免不少沒必要要的磁盤IO操做,只是引入布隆過濾器會帶來必定的內存消耗,下圖是在Key-Value系統中布隆過濾器的典型使用:

 

布隆過濾器相關擴展

 Counting filters

基本的布隆過濾器不支持刪除(Deletion)操做,可是 Counting filters 提供了一種能夠不用從新構建布隆過濾器但卻支持元素刪除操做的方法。在Counting filters中原來的位數組中的每一位由 bit 擴展爲 n-bit 計數器,實際上,基本的布隆過濾器能夠看做是隻有一位的計數器的Counting filters。原來的插入操做也被擴展爲把 n-bit 的位計數器加1,查找操做即檢查位數組非零便可,而刪除操做定義爲把位數組的相應位減1,可是該方法也有位的算術溢出問題,即某一位在屢次刪除操做後可能變成負值,因此位數組大小 m 須要充分大。另一個問題是Counting filters不具有伸縮性,因爲Counting filters不能擴展,因此須要保存的最大的元素個數須要提早知道。不然一旦插入的元素個數超過了位數組的容量,false positive的發生機率將會急劇增長。固然也有人提出了一種基於 D-left Hash 方法實現支持刪除操做的布隆過濾器,同時空間效率也比Counting filters高。

Data synchronization

Byers等人提出了使用布隆過濾器近似數據同步[9]。

Bloomier filters

Chazelle 等人提出了一個通用的布隆過濾器,該布隆過濾器能夠將某一值與每一個已經插入的元素關聯起來,並實現了一個關聯數組Map[10]。與普通的布隆過濾器同樣,Chazelle實現的布隆過濾器也能夠達到較低的空間消耗,但同時也會產生false positive,不過,在Bloomier filter中,某 key 若是不在 map 中,false positive在會返回時會被定義出的。該Map 結構不會返回與 key 相關的在 map 中的錯誤的值。

Compact approximators[11]

Stable Bloom filters[12]

Scalable Bloom filters[13]

Attenuated Bloom filters[14]

相關連接

參考資料

[1]維基百科:布隆過濾器:http://zh.wikipedia.org/zh/%E5%B8%83%E9%9A%86%E8%BF%87%E6%BB%A4%E5%99%A8

[2]數學之美二十一:布隆過濾器(Bloom Filter):http://www.google.com.hk/ggblog/googlechinablog/2007/07/bloom-filter_7469.html

[3]Chang, Fay; Dean, Jeffrey; Ghemawat, Sanjay; Hsieh, Wilson; Wallach, Deborah; Burrows, Mike; Chandra, Tushar; Fikes, Andrew et al. (2006), "Bigtable: A Distributed Storage System for Structured Data"Seventh Symposium on Operating System Design and Implementation

[4]Wessels, Duane (January 2004), "10.7 Cache Digests", Squid: The Definitive Guide (1st ed.), O'Reilly Media, p. 172, ISBN 0-596-00162-2, "Cache Digests are based on a technique first published by Pei Cao, called Summary Cache. The fundamental idea is to use a Bloom filter to represent the cache contents."

[5]http://plan9.bell-labs.com/magic/man2html/8/venti

[6]http://spinroot.com/

[7]http://src.chromium.org/viewvc/chrome/trunk/src/chrome/browser/safe_browsing/bloom_filter.h?view=markup

[8]http://en.wikipedia.org/wiki/Bloom_filter

[9]Byers, John W.; Considine, Jeffrey; Mitzenmacher, Michael; Rost, Stanislav (2004), "Informed content delivery across adaptive overlay networks", IEEE/ACM Transactions on Networking 12 (5): 767, DOI:10.1109/TNET.2004.836103

[10]Chazelle, Bernard; Kilian, Joe; Rubinfeld, Ronitt; Tal, Ayellet (2004), "The Bloomier filter: an efficient data structure for static support lookup tables", Proceedings of the Fifteenth Annual ACM-SIAM Symposium on Discrete Algorithms, pp. 30–39

[11]Boldi, Paolo; Vigna, Sebastiano (2005), "Mutable strings in Java: design, implementation and lightweight text-search algorithms", Science of Computer Programming 54 (1): 3–23, DOI:10.1016/j.scico.2004.05.003

[12]Deng, Fan; Rafiei, Davood (2006), "Approximately Detecting Duplicates for Streaming Data using Stable Bloom Filters", Proceedings of the ACM SIGMOD Conference, pp. 25–36

[13]Almeida, Paulo; Baquero, Carlos; Preguica, Nuno; Hutchison, David (2007), "Scalable Bloom Filters", Information Processing Letters 101 (6): 255–261, DOI:10.1016/j.ipl.2006.10.007

[14]http://en.wikipedia.org/wiki/Bloom_filter#Attenuated_Bloom_filters

相關文章
相關標籤/搜索