在上一篇 Java 多線程爬蟲及分佈式爬蟲架構探索 中,咱們使用了 JDK 自帶的 Set 集合來進行 URL 去重,看上去效果不錯,可是這種作法有一個致命了缺陷,就是隨着採集的 URL 增多,你須要的內存愈來愈大,最終會致使你的內存崩潰。那咱們在不使用數據庫的狀況下有沒有解決辦法呢?還記得咱們在上一篇文章中提到的布隆過濾器嗎?它就能夠完美解決這個問題,布隆過濾器有什麼特殊的地方呢?接下來就一塊兒來學習一下布隆過濾器。html
布隆過濾器是一種數據結構,比較巧妙的機率型數據結構,它是在 1970 年由一個名叫布隆提出的,它其實是由一個很長的二進制向量和一系列隨機映射函數組成,這點跟哈希表有些相同,可是相對哈希表來講布隆過濾器它更高效、佔用空間更少,布隆過濾器有一個缺點那就是有必定的誤識別率和刪除困難。布隆過濾器只能告訴你某個元素必定不存在或者可能存在在集合中, 因此布隆過濾器常常用來處理能夠忍受判斷失誤的業務,好比爬蟲 URL 去重。java
在說布隆過濾器原理以前,咱們先來複習一下哈希表,在上一篇文章中,咱們利用的是 Set 來進行 URL 去重,咱們來看看 Set 的存儲模型redis
URL 通過一個哈希函數後,將 URL 存入了數組裏,這樣查詢時也是很是高效的,可是因爲數組裏存入的是 URL,隨着 URL 的增多,須要的數組愈來愈大,意味着你須要更多的內存,好比咱們採集了幾億的 URL,那麼可能就須要上百G 的內存,這是條件不容許的,由於內存特別的昂貴,因此這個在 url 去重中是不可取的,佔內存更小的布隆過濾器就是一種不錯的選擇。數據庫
布隆過濾器實質上由長度爲 m 的位向量或位列表(僅包含 0 或 1 位值的列表)組成,最初全部值均設置爲 0,以下所示。數組
由於底層是 bit 數組,因此意味着數組只有 0、1 兩個值,跟哈希表同樣,咱們將 URL 經過 K 個函數映射 bit 數組裏,而且將指向的 Bit 數組對應的值改爲 1 。咱們以存 /nba/2492297.html
爲例,以下圖所示:緩存
/nba/2492297.html
通過三個哈希函數分別映射到了 一、四、9 的位置,這三個 bit 數組的值就變成了 1,咱們再存入一個 /nba/2492298.html
,此時 bit 數組就變成下面這樣:微信
/nba/2492298.html
被映射到了 0、四、11 的位置,因此此時 bit 數組上有 5 個位置的值爲 1,本應該是有 6 個值爲 1 的,可是由於在 4 這個位置重複了,因此會覆蓋。數據結構
布隆過濾器是如何判斷某個值必定不存在或者可能存在呢?經過判斷哈希函數映射到對應數組的值,若是都爲 1,說明可能存在,若是有一個不爲 1,說明必定不存在。對於必定不存在好理解,可是都爲 1 時,爲何說可能存在呢?這跟哈希表同樣,哈希函數會產生哈希衝突,也就是說兩個不一樣的值通過哈希函數都會獲得同一個數組下標,布隆過濾器也是同樣的。咱們以判斷 /nba/2492299.html
是否已經採集過爲例,通過哈希函數映射的 bit 數組上的位置入下圖所示:多線程
/nba/2492299.html
被哈希函數映射到了 四、九、11 的位置,而這幾個位置的值都爲 1 ,因此布隆過濾器就認爲 /nba/2492299.html
被採集過了,其實是沒有采集過的,這就說明了布隆過濾器存在誤判,這也是咱們業務容許的。布隆過濾器的誤判率跟 bit 數組的大小和哈希函數的個數有關係,若是 bit 數組太小,哈希函數過多,那麼 bit 數組的值很快都會變成 1,這樣誤判率就會愈來愈高,bit 數組過大,就會浪費更多的內存,因此就要平衡好 bit 數組的大小和哈希函數的個數,關於如何平衡這兩個的關係,不是咱們這篇文章的重點。架構
布隆過濾器的原理咱們已經瞭解了,爲了加深對布隆過濾器的理解,咱們用 Java 來實現一個簡易辦的布隆過濾器,代碼以下:
public class SimpleBloomFilterTest {
// bit 數組的大小
private static final int DEFAULT_SIZE = 1000;
// 用來生產三個不一樣的哈希函數的
private static final int[] seeds = new int[]{7, 31, 61,};
// bit 數組
private BitSet bits = new BitSet(DEFAULT_SIZE);
// 存放哈希函數的數組
private SimpleHash[] func = new SimpleHash[seeds.length];
public static void main(String[] args) {
SimpleBloomFilterTest filter = new SimpleBloomFilterTest();
filter.add("https://voice.hupu.com/nba/2492440.html");
filter.add("https://voice.hupu.com/nba/2492437.html");
filter.add("https://voice.hupu.com/nba/2492439.html");
System.out.println(filter.contains("https://voice.hupu.com/nba/2492440.html"));
System.out.println(filter.contains("https://voice.hupu.com/nba/249244.html"));
}
public SimpleBloomFilterTest() {
for (int i = 0; i < seeds.length; i++) {
func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
}
}
/** * 向布隆過濾器添加元素 * @param value */
public void add(String value) {
for (SimpleHash f : func) {
bits.set(f.hash(value), true);
}
}
/** * 判斷某元素是否存在布隆過濾器 * @param value * @return */
public boolean contains(String value) {
if (value == null) {
return false;
}
boolean ret = true;
for (SimpleHash f : func) {
ret = ret && bits.get(f.hash(value));
}
return ret;
}
/** * 哈希函數 */
public static class SimpleHash {
private int cap;
private int seed;
public SimpleHash(int cap, int seed) {
this.cap = cap;
this.seed = seed;
}
public int hash(String value) {
int result = 0;
int len = value.length();
for (int i = 0; i < len; i++) {
result = seed * result + value.charAt(i);
}
return (cap - 1) & result;
}
}
}
複製代碼
把上面這段代碼理解好對咱們理解布隆過濾器很是有幫助,實際上在工做中並不須要咱們本身實現布隆過濾器,谷歌已經幫咱們實現了布隆過濾器,在 Guava 包中提供了 BloomFilter,這個布隆過濾器實現的很是棒,下面就看看谷歌辦的布隆過濾器。
要使用 Guava 包下提供的 BloomFilter ,就須要引入 Guava 包,咱們在 pom.xml 中引入下面依賴:
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>28.1-jre</version>
</dependency>
複製代碼
Guava 中的布隆過濾器實現的很是複雜,關於細節咱們就不去探究了,咱們就來看看 Guava 中布隆過濾器的構造函數吧,Guava 中並無提供構造函數,並且提供了 create 方法來構造布隆過濾器:
public static <T> BloomFilter<T> create( Funnel<? super T> funnel, int expectedInsertions, double fpp) {
return create(funnel, (long) expectedInsertions, fpp);
}
複製代碼
funnel:你要過濾數據的類型
expectedInsertions:你要存放的數據量
fpp:誤判率
你只須要傳入這三個參數你就可使用 Guava 包中的布隆過濾器了,下面這我寫的一段 Guava 布隆過濾器測試程序,能夠改動 fpp 多運行幾回,體驗 Guava 的布隆過濾器。
public class GuavaBloomFilterTest {
// bit 數組大小
private static int size = 10000;
// 布隆過濾器
private static BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.defaultCharset()), size, 0.03);
public static void main(String[] args) {
// 先向布隆過濾器中添加 10000 個url
for (int i = 0; i < size; i++) {
String url = "https://voice.hupu.com/nba/" + i;
bloomFilter.put(url);
}
// 前10000個url不會出現誤判
for (int i = 0; i < size; i++) {
String url = "https://voice.hupu.com/nba/" + i;
if (!bloomFilter.mightContain(url)) {
System.out.println("該 url 被採集過了");
}
}
List<String> list = new ArrayList<String>(1000);
// 再向布隆過濾器中添加 2000 個 url ,在這2000 箇中就會出現誤判了
// 誤判的個數爲 2000 * fpp
for (int i = size; i < size + 2000; i++) {
String url = "https://voice.hupu.com/nba/" + i;
if (bloomFilter.mightContain(url)) {
list.add(url);
}
}
System.out.println("誤判數量:" + list.size());
}
}
複製代碼
緩存擊穿是查詢數據庫中不存在的數據,若是有用戶惡意模擬請求不少緩存中不存在的數據,因爲緩存中都沒有,致使這些請求短期內直接落在了DB上,對DB產生壓力,致使數據庫異常。
最多見的解決辦法就是採用布隆過濾器,將全部可能存在的數據哈希到一個足夠大的bitmap中,一個必定不存在的數據會被這個bitmap攔截掉,從而避免了對底層存儲系統的查詢壓力。下面是一段僞代碼:
public String getByKey(String key) {
// 經過key獲取value
String value = redis.get(key);
if (StringUtil.isEmpty(value)) {
if (bloomFilter.mightContain(key)) {
value = xxxService.get(key);
redis.set(key, value);
return value;
} else {
return null;
}
}
return value;
}
複製代碼
爬蟲是對 url 的去重,防止 url 重複採集,這也是咱們這篇文章重點講解的內容
從數十億個垃圾郵件列表中判斷某郵箱是否垃圾郵箱,將垃圾郵箱添加到布隆過濾器中,而後判斷某個郵件是不是存在在布隆過濾器中,存在說明就是垃圾郵箱。
文章不足之處,望你們多多指點,共同窗習,共同進步
打個小廣告,歡迎掃碼關注微信公衆號:「平頭哥的技術博文」,一塊兒進步吧。