海量數據處理利器之Hash和bloom filter——在線郵件地址過濾

標題用了了海量數據(Massive datasets)而不用大數據(Big data)。感覺大數據還是略微有點虛,來點實際的。 一、需求 現在我們需要設計一個在線過濾垃圾郵件地址的方案,我們的數據庫裏面已經有10億個合法的郵件地址(稱爲合法地址集S),當有新的郵件發過來時,要檢查這個郵件地址是不是在我們的數據庫裏面,如果在,我們接收郵件,如果不在,我們就把它當做垃圾郵件過濾掉。 二、直覺想到的方法
相關文章
相關標籤/搜索