Bloom Filter

時間 2019-11-20

標籤 bloom filter 简体版

原文原文鏈接

哈希 hash

原理

Hash （哈希，或者散列）函數在計算機領域，尤爲是數據快速查找領域，加密領域用的極廣。

其做用是將一個大的數據集映射到一個小的數據集上面（這些小的數據集叫作哈希值，或者散列值）。

一個應用是Hash table（散列表，也叫哈希表），是根據哈希值 (Key value) 而直接進行訪問的數據結構。也就是說，它經過把哈希值映射到表中一個位置來訪問記錄，以加快查找的速度。下面是一個典型的 hash 函數 / 表示意圖：

哈希函數有如下兩個特色：

•若是兩個散列值是不相同的（根據同一函數），那麼這兩個散列值的原始輸入也是不相同的。

•散列函數的輸入和輸出不是惟一對應關係的，若是兩個散列值相同，兩個輸入值極可能是相同的。但也可能不一樣，這種狀況稱爲「散列碰撞」（或者「散列衝突」）。

缺點：引用吳軍博士的《數學之美》中所言，哈希表的空間效率仍是不夠高。若是用哈希表存儲一億個垃圾郵件地址，每一個email地址對應 8bytes, 而哈希表的存儲效率通常只有50%，所以一個email地址須要佔用16bytes. 所以一億個email地址佔用1.6GB，若是存儲幾十億個email address則須要上百GB的內存。除非是超級計算機，通常的服務器是沒法存儲的。

因此要引入下面的 Bloom Filter。

布隆過濾器 Bloom Filter

原理

若是想判斷一個元素是否是在一個集合裏，通常想到的是將集合中全部元素保存起來，而後經過比較肯定。鏈表、樹、散列表（又叫哈希表，Hash table）等等數據結構都是這種思路。可是隨着集合中元素的增長，咱們須要的存儲空間愈來愈大。同時檢索速度也愈來愈慢。

Bloom Filter 是一種空間效率很高的隨機數據結構，Bloom filter 能夠看作是對 bit-map 的擴展, 它的原理是：

當一個元素被加入集合時，經過 K 個 Hash 函數將這個元素映射成一個位陣列（Bit array）中的 K 個點，把它們置爲 1。檢索時，咱們只要看看這些點是否是都是 1 就（大約）知道集合中有沒有它了：

•若是這些點有任何一個 0，則被檢索元素必定不在；

•若是都是 1，則被檢索元素極可能在。

優勢

It tells us that the element either definitely is not in the set or may be in the set.

它的優勢是空間效率和查詢時間都遠遠超過通常的算法，布隆過濾器存儲空間和插入 / 查詢時間都是常數O(k)。另外, 散列函數相互之間沒有關係，方便由硬件並行實現。布隆過濾器不須要存儲元素自己，在某些對保密要求很是嚴格的場合有優點。

缺點

可是布隆過濾器的缺點和優勢同樣明顯。誤算率是其中之一。隨着存入的元素數量增長，誤算率隨之增長。可是若是元素數量太少，則使用散列表足矣。

(誤判補救方法是：再創建一個小的白名單，存儲那些可能被誤判的信息。)

另外，通常狀況下不能從布隆過濾器中刪除元素. 咱們很容易想到把位數組變成整數數組，每插入一個元素相應的計數器加 1, 這樣刪除元素時將計數器減掉就能夠了。然而要保證安全地刪除元素並不是如此簡單。首先咱們必須保證刪除的元素的確在布隆過濾器裏面. 這一點單憑這個過濾器是沒法保證的。另外計數器迴繞也會形成問題。

Example

能夠快速且空間效率高的判斷一個元素是否屬於一個集合；用來實現數據字典，或者集合求交集。

如： Google chrome 瀏覽器使用bloom filter識別惡意連接（可以用較少的存儲空間表示較大的數據集合，簡單的想就是把每個URL均可以映射成爲一個bit）

得多，而且誤判率在萬分之一如下。

又如：檢測垃圾郵件

假定咱們存儲一億個電子郵件地址，咱們先創建一個十六億二進制（比特），即兩億字節的向量，而後將這十六億個二進制所有設置爲零。對於每個電子郵件地址 X，咱們用八個不一樣的隨機數產生器（F1,F2, ...,F8）產生八個信息指紋（f1, f2, ..., f8）。再用一個隨機數產生器 G 把這八個信息指紋映射到 1 到十六億中的八個天然數 g1, g2, ...,g8。如今咱們把這八個位置的二進制所有設置爲一。當咱們對這一億個 email 地址都進行這樣的處理後。一個針對這些 email 地址的布隆過濾器就建成了。

1. Bloom Filter
2. bloom filter
3. Bloom filter
4. Bloom Filter與Cuckoo Filter
5. Bloom Filter 系列改進之Counting Bloom Filter
6. Counting Bloom Filter【ZZ】
7. bloom filter算法
8. Hbase之Bloom Filter
9. Counting Bloom Filter
10. Bloom Filter理解
更多相關文章...
• PHP Filter 函數 - PHP參考手冊
• PHP filter_input_array() 函數 - PHP參考手冊
• Java 8 Stream 教程
• RxJava操作符（三）Filtering

相關標籤/搜索

redis+cookie+json+filter

Filter教科書

foreach&map&filter&some&every&reduce&reduceright

Filter 頁面重定向循環

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。