spark 過濾大批量數據 BloomFilter

1.BloomFilter介紹  Bloom Filter是一種空間效率很高的隨機數據結構,它的原理是,當一個元素被加入集合時,經過K個Hash函數將這個元素映射成一個位陣列(Bit array)中的K個點,把它們置爲1。檢索時,咱們只要看看這些點是否是都是1就(大約)知道集合中有沒有它了:若是這些點有任何一個0,則被檢索元素必定不在;若是都是1,則被檢索元素極可能在。這就是布隆過濾器的基本思想。
相關文章
相關標籤/搜索