布隆過濾器

學習網絡爬蟲講到布隆過濾器,把算法記錄下來。 java

布隆過濾器是哈希算法的一種改進,以書本過濾email的需求爲例子,使用MD5碼(128bit,16字節),1億的數據須要128億比特(1.6GB的內存)。咱們有1億的數據,若是徹底不相同而且是連續的,那麼1億bit的標記位就夠用了,如今爲了增長容錯,使用16億bit,每一個數據按照算法映射到8個不一樣的標記位,若是這八個不一樣的標記位都是使用的,那麼這個數據以前確定被標記了。這個方法確定存在誤報率,可是基於這樣的想法,8不行能夠分1六、32只要不是超過或者等於128對空間的需求確定小於純哈希算法。Java實現以下: 算法

import java.util.BitSet;

public class BloomFilter {

    private static final int DEFAULT_SIZE = 2 << 24;//布隆過濾器的比特長度
    private static final int[] seeds = { 3, 5, 7, 11, 13, 31, 37, 61};
    private static BitSet bits = new BitSet(DEFAULT_SIZE);
    private static SimpleHash[] func = new SimpleHash[seeds.length];

    public static void addValue(String value)
    {
        for(SimpleHash f : func)
            bits.set(f.hash(value),true);
    }
    
    public static void add(String value)
    {
        if(value != null) addValue(value);
    }
    
    public static boolean contains(String value)
    {
        if(value == null) return false;
        boolean ret = true;
        for(SimpleHash f : func)
            ret = ret && bits.get(f.hash(value));
        return ret;
    }
    
    public static void main(String[] args) {
        String value = "xkeyideal@gmail.com";
        for (int i = 0; i < seeds.length; i++) {
            func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
        }
        add(value);
        System.out.println(contains(value));
    }
}

class SimpleHash {

    private int cap;
    private int seed;

    public  SimpleHash(int cap, int seed) {
        this.cap = cap;
        this.seed = seed;
    }

    public int hash(String value) {
        int result = 0;
        int len = value.length();
        for (int i = 0; i < len; i++) {
            result = seed * result + value.charAt(i);
        }
        return (cap - 1) & result;
    }
}
相關文章
相關標籤/搜索