原文連接: https://jaychen.cc/redis/2018...
做者:JayChen
布隆過濾器是一個神奇的數據結構,能夠用來判斷一個元素是否在一個集合中。很經常使用的一個功能是用來去重。在爬蟲中常見的一個需求:目標網站 URL 千千萬,怎麼判斷某個 URL 爬蟲是否寵幸過?簡單點能夠爬蟲每採集過一個 URL,就把這個 URL 存入數據庫中,每次一個新的 URL 過來就到數據庫查詢下是否訪問過。html
select id from table where url = 'https://jaychen.cc'
可是隨着爬蟲爬過的 URL 愈來愈多,每次請求前都要訪問數據庫一次,而且對於這種字符串的 SQL 查詢效率並不高。除了數據庫以外,使用 Redis 的 set 結構也能夠知足這個需求,而且性能優於數據庫。可是 Redis 也存在一個問題:耗費過多的內存。這個時候布隆過濾器就很橫的出場了:這個問題讓我來。git
相比於數據庫和 Redis,使用布隆過濾器能夠很好的避免性能和內存佔用的問題。github
布隆過濾器本質是一個位數組,位數組就是數組的每一個元素都只佔用 1 bit 。每一個元素只能是 0 或者 1。這樣申請一個 10000 個元素的位數組只佔用 10000 / 8 = 1250 B 的空間。布隆過濾器除了一個位數組,還有 K 個哈希函數。當一個元素加入布隆過濾器中的時候,會進行以下操做:redis
舉個🌰,假設布隆過濾器有 3 個哈希函數:f1, f2, f3 和一個位數組 arr
。如今要把 https://jaychen.cc
插入布隆過濾器中:docker
當要判斷一個值是否在布隆過濾器中,對元素再次進行哈希計算,獲得值以後判斷位數組中的每一個元素是否都爲 1,若是值都爲 1,那麼說明這個值在布隆過濾器中,若是存在一個值不爲 1,說明該元素不在布隆過濾器中。數據庫
看不懂文字看下面的靈魂畫手的圖解釋👇👇👇
看了上面的說明,必然會提出一個問題:當插入的元素原來越多,位數組中被置爲 1 的位置就越多,當一個不在布隆過濾器中的元素,通過哈希計算以後,獲得的值在位數組中查詢,有可能這些位置也都被置爲 1。這樣一個不存在布隆過濾器中的也有可能被誤判成在布隆過濾器中。可是若是布隆過濾器判斷說一個元素不在布隆過濾器中,那麼這個值就必定不在布隆過濾器中。簡單來講:數組
這個布隆過濾器的缺陷放到上面爬蟲的需求中,可能存在某些沒有訪問過的 URL 可能會被誤判爲訪問過,可是若是是訪問過的 URL 必定不會被誤判爲沒訪問過。bash
redis 在 4.0 的版本中加入了 module 功能,布隆過濾器能夠經過 module 的形式添加到 redis 中,因此使用 redis 4.0 以上的版本能夠經過加載 module 來使用 redis 中的布隆過濾器。可是這不是最簡單的方式,使用 docker 能夠直接在 redis 中體驗布隆過濾器。數據結構
> docker run -d -p 6379:6379 --name bloomfilter redislabs/rebloom > docker exec -it bloomfilter redis-cli
redis 布隆過濾器主要就兩個命令:函數
bf.add
添加元素到布隆過濾器中:bf.add urls https://jaychen.cc
。bf.exists
判斷某個元素是否在過濾器中:bf.exists urls https://jaychen.cc
。上面說過布隆過濾器存在誤判的狀況,在 redis 中有兩個值決定布隆過濾器的準確率:
error_rate
:容許布隆過濾器的錯誤率,這個值越低過濾器的位數組的大小越大,佔用空間也就越大。initial_size
:布隆過濾器能夠儲存的元素個數,當實際存儲的元素個數超過這個值以後,過濾器的準確率會降低。redis 中有一個命令能夠來設置這兩個值:
bf.reserve urls 0.01 100
三個參數的含義:
error_rate
的值。initial_size
的值。使用這個命令要注意一點:執行這個命令以前過濾器的名字應該不存在,若是執行以前就存在會報錯:(error) ERR item exists