基於Redis擴展模塊的布隆過濾器使用

時間 2019-11-06

原文原文鏈接

什麼是布隆過濾器？
它其實是一個很長的二進制向量和一系列隨機映射函數。把一個目標元素經過多個hash函數的計算，將多個隨機計算出的結果映射到不一樣的二進制向量的位中，以此來間接標記一個元素是否存在於一個集合中。
布隆過濾器能夠作什麼？
布隆過濾器能夠用於檢索一個元素是否在一個集合中。它的優勢是空間效率和查詢時間都比通常的算法要好的多，缺點是有必定的誤識別率和刪除困難。
布隆過濾器特色
若是布隆過濾器顯示一個元素不存在於集合中，那麼這個元素100%不存在與集合當中
若是布隆過濾器顯示一個元素存在於集合中，那麼頗有可能存在，可能性取決於對布隆過濾器的定義（BF.RESERVE {key} {error_rate} {capacity}）python

布隆過濾器的原理圖，這個就很容易理解了。git

Redis中的布隆過濾器實現（rebloom模塊擴展）github

下載並編譯
git clone git://github.com/RedisLabsModules/rebloom
cd rebloom
make
配置文件中加載rebloom
loadmodule /your_path/rebloom.so
重啓Redis服務器便可
./bin/redis-cli -h 127.0.0.1 -p 6379 -a ****** shutdown
./bin/redis-server redis.conf
redis

rebloom在Redis中的使用算法

bloom filter定義數組

BF.RESERVE {key} {error_rate} {capacity}
使用給定的指望錯誤率和初始容量建立空的Bloom過濾器（若是不存在的話）。若是打算向Bloom過濾器中添加許多項，則此命令很是有用，不然只能使用BF.ADD 添加項。
初始容量和錯誤率將決定過濾器的性能和內存使用狀況。通常來講，錯誤率越小(即對偏差的容忍度越低)，每一個過濾器條目的空間消耗就越大。服務器

bloom filter基本操做app

1，BF.ADD {key} {item}
單條添加元素
向Bloom filter添加一個元素，若是該key不存在，則建立該key(過濾器)。
若是項是新插入的，則爲「1」;若是項之前可能存在，則爲「0」。dom

2，BF.MADD {key} {item} [item...]
批量添加元素
布爾數(整數)的數組。返回值爲0或1的範圍的數據，這取決因而否將相應的輸入元素新添加到過濾器中，或者是否已經存在。函數

3，BF.EXISTS {key} {item}
判斷單個元素是否存在
若是存在，返回1，不然返回0

4，BF.MEXISTS {key} {item} [item...]
判斷多個元素是否存在
布爾數(整數)的數組。返回值爲0或1的範圍的數據，這取決因而否將相應的元是否已經存在於key中。

127.0.0.1:8001>  bf.reserve bloom_filter_test 0.0000001 1000000
OK
127.0.0.1:8001>  bf.reserve bloom_filter_test 0.0000001 1000000
(error) ERR item exists
127.0.0.1:8001>
127.0.0.1:8001>
127.0.0.1:8001> bf.add bloom_filter_test key1
(integer) 1
127.0.0.1:8001> bf.add bloom_filter_test key2
(integer) 1
127.0.0.1:8001>
127.0.0.1:8001> bf.madd bloom_filter_test key2 key3 key4 key5
1) (integer) 0
2) (integer) 1
3) (integer) 1
4) (integer) 1
127.0.0.1:8001> bf.exists bloom_filter_test key2
(integer) 1
127.0.0.1:8001> bf.exists bloom_filter_test key3
(integer) 1
127.0.0.1:8001> bf.mexists bloom_filter_test key3 key4 key5
1) (integer) 1
2) (integer) 1
3) (integer) 1
127.0.0.1:8001>

5，bf.insert

bf.insert{key} [CAPACITY {cap}] [ERROR {ERROR}] [NOCREATE] ITEMS {item…}
該命令將向bloom過濾器添加一個或多個項，若是它還不存在，則默認狀況下建立它。有幾個參數可用於修改此行爲。
key:過濾器的名稱
capacity:若是指定了，應該在後面加上要建立的過濾器的所需容量。若是過濾器已經存在，則忽略此參數。若是自動建立了過濾器，而且沒有此參數，則使用默認容量(在模塊級指定)。見bf.reserve。
error:若是指定了，後面應該跟隨着新建立的過濾器的錯誤率(若是它還不存在)。若是自動建立過濾器而沒有指定錯誤，則使用默認的模塊級錯誤率。見bf.reserve。
nocreate:若是指定，表示若是過濾器不存在，就不該該建立它。若是過濾器還不存在，則返回一個錯誤，而不是自動建立它。若是須要在建立過濾器和添加過濾器之間進行嚴格的分離，可使用這種方法。將NOCREATE與容量或錯誤一塊兒指定是一個錯誤。
item:指示要添加到篩選器的項的開頭。必須指定此參數。

127.0.0.1:8001> bf.insert bloom_filter_test2 items  key1 key2 key3
1) (integer) 1
2) (integer) 1
3) (integer) 1
127.0.0.1:8001> bf.insert bloom_filter_test2 items  key1 key2 key3
1) (integer) 0
2) (integer) 0
3) (integer) 0
127.0.0.1:8001> bf.insert bloom_filter_test2 capacity  10000 error 0.00001  nocreate  items  key1 key2 key3
1) (integer) 0
2) (integer) 0
3) (integer) 0
127.0.0.1:8001>
127.0.0.1:8001> bf.insert bloom_filter_test2 capacity  10000 error 0.00001  nocreate  items  key4 key5 key6
1) (integer) 1
2) (integer) 1
3) (integer) 1
127.0.0.1:8001>

bf持久化操做

BF.SCANDUMP {key} {iter}

對bloom過濾器進行增量保存。這對於不能適應常規save和restore模型的大型bloom filter很是有用。
第一次調用這個命令時，iter的值應該是0。這個命令將返回連續的(iter, data)對，直到(0,NULL)，以表示完成
python僞代碼演示:

chunks = []
iter = 0
while True:
    iter, data = BF.SCANDUMP(key, iter)
    if iter == 0:
        break
    else:
        chunks.append([iter, data])

# Load it back
for chunk in chunks:
    iter, data = chunk
    BF.LOADCHUNK(key, iter, data)

bf.scandump示例

127.0.0.1:8001> bf.scandump bloom_filter_test2 0
1) (integer) 1
2) "\x06\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x04\x00\x00\x00\x80\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x06\x00\x00\x00\x00\x00\x00\x00{\x14\xaeG\xe1z\x84?\x88\x16\x8a\xc5\x8c+#@\a\x00\x00\x00j\x00\x00\x00\n"
127.0.0.1:8001> bf.scandump bloom_filter_test2 1
1) (integer) 129
2) "\x00\x00\x00\x00\xa2\x00\x00\x00\x00\x00\x00B\x01\x00\x00\x00\x00\x00\x00\x00\x80\x00\x00 \x00\x00\b\x00\x00\x00\x00\b\x00\x00@\x00\x01\x04\x18\x02\x00\x00\x00\x82\x00\x00\x80@\x00\b\x00\x00\x00\x00 \x00\x00@\x00\x00\x00\x00\x18\b\x00\b\x00\b\x00\x80B\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x80\x00\x00\x00\x00 (\x00\x00\x00\x00@\x00\x00\x00\x00@\x00\x00\x04\x00\x00\x00\x00\x00\x00\x00\x80\x00\x00\x00\x80\x00\x00@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\b"
127.0.0.1:8001> bf.scandump bloom_filter_test2 129
1) (integer) 0
2) ""
127.0.0.1:8001>

blool filter數據類型的屬性

bf.debug

這裏能夠看到，隨着bloom filter元素的增長，其空間容量也在不斷地增長

127.0.0.1:8001> bf.debug bloom_filter_test
1) "size:5"
2) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:5 ratio:1e-07"
127.0.0.1:8001>
127.0.0.1:8001>
127.0.0.1:8001> bf.debug bloom_filter_test
1) "size:128955"
2) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:128955 ratio:1e-07"
127.0.0.1:8001>
127.0.0.1:8001>
127.0.0.1:8001> bf.debug bloom_filter_test
1) "size:380507"
2) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:380507 ratio:1e-07"
127.0.0.1:8001>
127.0.0.1:8001>
127.0.0.1:8001> bf.debug bloom_filter_test
1) "size:569166"
2) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:569166 ratio:1e-07"
127.0.0.1:8001>
127.0.0.1:8001>
127.0.0.1:8001> bf.debug bloom_filter_test
1) "size:852316"
2) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:852316 ratio:1e-07"
127.0.0.1:8001>
127.0.0.1:8001>
127.0.0.1:8001> bf.debug bloom_filter_test
1) "size:1000005"
2) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:1000005 ratio:1e-07"
127.0.0.1:8001>

關於布隆過濾器數據類型的空間分析

redis的bigkeys選項能夠分析整個實例中的big keys信息，可是沒法分析出MBbloom--類型的key值得大小

這裏基於Redis的debug object功能，實現對MBbloom--類型的key的統計（沒有找到怎麼用Python執行bf.debug原生命令的執行方式）。

import redis
import sys
import time
import random

def get_bf_bigkeys():
    try:
        redis_conn = redis.StrictRedis(host='127.0.0.1', port=8001, db=0, password='******')
    except:
        print("connect redis error")
        sys.exit(1)
    dict_key = {}
    cursor = 1
    while cursor != 0:
        if cursor == 1:
            key = redis_conn.scan(cursor=0, match='*',  count=5000)
        else:
            key = redis_conn.scan(cursor=cursor,match='*', count=5000)
        cursor = key[0]
        if len(key[1]) > 0:
            for var in key[1]:
                if str(redis_conn.type(var), encoding = "utf-8") == 'MBbloom--':
                    info = redis_conn.debug_object(var)
                    dict_key[var] = float(info['serializedlength']) / 1024 / 1024  # byte ---> mb

        res = sorted(dict_key.items(), key=lambda dict_key: dict_key[1], reverse=True)
        for i in range(10 if len(res) > 10 else len(res)):
            print(res[i])


if __name__ == "__main__":
    get_bf_bigkeys()

統計結果示例以下

[root@tencent02 redis8001]# python3 static_big_bf_keys.py
(b'bloom_filter_test', 4.000059127807617)
(b'my_bf2', 0.04577445983886719)
(b'bloom_filter_test2', 0.00014019012451171875)
(b'my_bf1', 0.0001220703125)
[root@tencent02 redis8001]#