php實現Bloom Filter

時間 2019-11-17

標籤 php 實現 bloom filter 欄目 PHP 简体版

原文原文鏈接

　Bloom Filter（BF）是由Bloom在1970年提出的一種多哈希函數映射的高速查找算法，用於高速查找某個元素是否屬於集合，但不要求百分百的準確率。 Bloom filter通常用於爬蟲的url去重，即推斷某個url是否已經被爬過。原理方面我引用一篇別人的文章。講的比較清晰了。在此我不予贅述。不少其它信息可以參考其論文。看過幾個php實現的BF，都以爲可讀性不是很是強。本文主要給出我對Bloom Filter的一個php實現。 php

原理：

<引用自這篇文章>html

一. 實例node

　　爲了說明Bloom Filter存在的重要意義，舉一個實例：web

　　若是要你寫一個網絡蜘蛛（web crawler）。因爲網絡間的連接錯綜複雜，蜘蛛在網絡間爬行很是可能會造成「環」。算法

爲了不造成「環」，就需要知道蜘蛛已經訪問過那些URL。數據庫

給一個URL，如何知道蜘蛛是否已經訪問過呢？略微想一想，就會有例如如下幾種方案：數組

　　1. 將訪問過的URL保存到數據庫。markdown

　　2. 用HashSet將訪問過的URL保存起來。那僅僅需接近O(1)的代價就可以查到一個URL是否被訪問過了。網絡

　　3. URL通過MD5或SHA-1等單向哈希後再保存到HashSet或數據庫。數據結構

　　4. Bit-Map方法。

創建一個BitSet。將每個URL通過一個哈希函數映射到某一位。

　　方法1~3都是將訪問過的URL完整保存，方法4則僅僅標記URL的一個映射位。

　　以上方法在數據量較小的狀況下都能完美解決這個問題，但是當數據量變得很是龐大時問題就來了。

　　方法1的缺點：數據量變得很是龐大後關係型數據庫查詢的效率會變得很是低。

而且每來一個URL就啓動一次數據庫查詢是否是過小題大作了？

　　方法2的缺點：太消耗內存。隨着URL的增多，佔用的內存會愈來愈多。

就算僅僅有1億個URL，每個URL僅僅算50個字符，就需要5GB內存。

　　方法3：因爲字符串通過MD5處理後的信息摘要長度僅僅有128Bit。SHA-1處理後也僅僅有160Bit，所以方法3例如法2節省了好幾倍的內存。

　　方法4消耗內存是相對較少的。但缺點是單一哈希函數發生衝突的機率過高。

還記得數據結構課上學過的Hash表衝突的各類解決方法麼？若要減小衝突發生的機率到1%。就要將BitSet的長度設置爲URL個數的100倍。

　　實質上上面的算法都忽略了一個重要的隱含條件：贊成小几率的出錯，不必定要100%準確！也就是說少許url實際上沒有沒網絡蜘蛛訪問，而將它們錯判爲已訪問的代價是很是小的——大不了少抓幾個網頁唄。

二. Bloom Filter的算法

　　廢話講到這裏，如下引入本篇的主角——Bloom Filter。

事實上上面方法4的思想已經很是接近Bloom Filter了。方法四的致命缺點是衝突機率高。爲了減小衝突的概念。Bloom Filter使用了多個哈希函數，而不是一個。

　Bloom Filter算法例如如下：

(1)初始化

　建立一個m位BitSet，先將全部位初始化爲0，而後選擇k個不一樣的哈希函數。第i個哈希函數對字符串str哈希的結果記爲h（i。str），且h（i。str）的範圍是0到m-1 。

(2) 檢查字符串是否存在

　
如下是檢查字符串str是否被BitSet記錄過的過程：

　　對於字符串str。分別計算h（1。str），h（2。str）…… h（k，str）。而後檢查BitSet的第h（1，str）、h（2，str）…… h（k，str）位是否爲1，若當中不論什麼一位不爲1則可以斷定str必定沒有被記錄過。

若全部位都是1，則「以爲」字符串str存在。

　　若一個字符串相應的Bit不全爲1。則可以確定該字符串必定沒有被Bloom Filter記錄過。

（這是顯然的，因爲字符串被記錄過。其相應的二進制位確定全部被設爲1了）

　　但是若一個字符串相應的Bit全爲1，其實是不能100%的確定該字符串被Bloom Filter記錄過的。（因爲有可能該字符串的全部位都恰好是被其它字符串所相應）這樣的將該字符串劃分錯的狀況，稱爲false positive 。

(3) 刪除字符串 :

字符串增長了就被不能刪除了，因爲刪除會影響到其它字符串。實在需要刪除字符串的可以使用Counting bloomfilter(CBF)。這是一種基本Bloom Filter的變體，CBF將基本Bloom Filter每個Bit改成一個計數器，這樣就可以實現刪除字符串的功能了。

　　Bloom Filter跟單哈希函數Bit-Map不一樣之處在於：Bloom Filter使用了k個哈希函數，每個字符串跟k個bit相應。從而減小了衝突的機率。

三. Bloom Filter參數選擇

(1)哈希函數選擇

　　哈希函數的選擇對性能的影響應該是很是大的，一個好的哈希函數要能近似等機率的將字符串映射到各個Bit。選擇k個不一樣的哈希函數比較麻煩，一種簡單的方法是選擇一個哈希函數，而後送入k個不一樣的參數。

(2)Bit數組大小選擇

　　哈希函數個數k、位數組大小m、增長的字符串數量n的關係可以參考參考文獻1。該文獻證實了對於給定的m、n，當 k = ln(2)* m/n 時出錯的機率是最小的。

　　同一時候該文獻還給出特定的k，m，n的出錯機率。例如：依據參考文獻，哈希函數個數k取10，位數組大小m設爲字符串個數n的20倍時，false positive發生的機率是0.0000889 ，這個機率基本能知足網絡爬蟲的需求了。

實現：

<?php ///*************************************************************************** // *  // * Copyright (c) 2015 Baidu.com, Inc. All Rights Reserved // *  // **************************************************************************/ //  //  //  ///** // * @file bloomfilter.php // * @author Rachel Zhang(zrqsophia@sina.com) // * @date 2015/07/24 18:48:57 // * @version $Revision$  // * @brief  // *  // **/ class BloomFilter{ var $m; # blocksize var $n; # number of strings to hash var $k; # number of hashing functions var $bitset; # hashing block with size m function BloomFilter($mInit,$nInit){ $this->m = $mInit; $this->n = $nInit; $this->k = ceil(($this->m/$this->n)*log(2)); echo "number of functions: $this->k\n"; $this->bitset = array_fill(0, $this->m, false); } function hashcode($str){ $res = array(); #put k hashing bit into $res $seed = crc32($str); mt_srand($seed); // set random seed, or mt_rand wouldn't provide same random arrays at different generation for($i=0 ; $i<$this->k ; $i++){ $res[] = mt_rand(0,$this->m-1); } return $res; } function addKey($key){ foreach($this->hashcode($key) as $codebit){ $this->bitset[$codebit]=true; } } function existKey($key){ $code=$this->hashcode($key); foreach($code as $codebit){ if($this->bitset[$codebit]==false){ return false; } } return true; } } $bf = new BloomFilter(10,2); $str_add1 = "test1"; $str_add2 = "test2"; $str_notadd3 = "test3"; //var_dump($bf->hashcode($str)); $bf->addKey($str_add1); $bf->addKey($str_add2); var_dump($bf->existKey($str_add1)); var_dump($bf->existKey($str_add2)); var_dump($bf->existKey($str_notadd3)); ?>

1. golang bloom filter實現
2. Python實現Bloom filter
3. golang 實現bloom filter
4. Bloom Filter算法和實現
5. Bloom Filter原理與實現
6. Bloom Filter原理實現
7. bloom filter的開源實現程序memcached bloom filter
8. Bloom Filter
9. bloom filter
10. Bloom filter
更多相關文章...
• PHP Filter 函數 - PHP參考手冊
• 現實生活中的 XML - XML 教程
• ☆基於Java Instrument的Agent實現
• Spring Cloud 微服務實戰(三) - 服務註冊與發現

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。