布隆過濾器java
布隆過濾器主要用於判斷一個元素是否在一個集合中,它能夠使用一個位數組簡潔的表示一個數組。它的空間效率和查詢時間遠遠超過通常的算法,可是它存在必定的誤判的機率,適用於容忍誤判的場景。若是布隆過濾器判斷元素存在於一個集合中,那麼大機率是存在在集合中,若是它判斷元素不存在一個集合中,那麼必定不存在於集合中。經常被用於大數據去重。算法
算法思想數組
布隆過濾器算法主要思想就是利用k個哈希函數計算獲得不一樣的哈希值,而後映射到相應的位數組的索引上,將相應的索引位上的值設置爲1。判斷該元素是否出如今集合中,就是利用k個不一樣的哈希函數計算哈希值,看哈希值對應相應索引位置上面的值是不是1,若是有1個不是1,說明該元素不存在在集合中。可是也有可能判斷元素在集合中,可是元素不在,這個元素全部索引位置上面的1都是別的元素設置的,這就致使必定的誤判概率。布隆過濾的思想以下圖所示:函數
java實現簡單布隆過濾器(hash+bitset):大數據
import java.util.ArrayList; import java.util.BitSet; import java.util.List; public class BloomFilter { private static final int DEFAULT_SIZE = 2 << 24; private static final int[] seeds = new int[] { 5, 7, 11, 13, 31, 37, 61 }; private BitSet bits = new BitSet(DEFAULT_SIZE); private SimpleHash[] func = new SimpleHash[seeds.length]; public BloomFilter() { for (int i = 0; i < seeds.length; i++) { func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]); } } public void add(String value) { for (SimpleHash f : func) { bits.set(f.hash(value), true); } } public boolean contains(String value) { if (value == null) { return false; } boolean ret = true; for (SimpleHash f : func) { ret = ret && bits.get(f.hash(value)); } return ret; } // 內部類,simpleHash public static class SimpleHash { private int cap; private int seed; public SimpleHash(int cap, int seed) { this.cap = cap; this.seed = seed; } public int hash(String value) { int result = 0; int len = value.length(); for (int i = 0; i < len; i++) { result = seed * result + value.charAt(i); } return (cap - 1) & result; } } public static void main(String[] args) { BloomFilter bf = new BloomFilter(); List<String> strs = new ArrayList<String>(); strs.add("123456"); strs.add("hello word"); strs.add("transDocId"); strs.add("123456"); strs.add("transDocId"); strs.add("hello word"); strs.add("test"); for (int i=0;i<strs.size();i++) { String s = strs.get(i); boolean bl = bf.contains(s); if(bl){ System.out.println(i+","+s); }else{ bf.add(s); } } } }