布隆過濾器BloomFilter原理剖析

場景: 不安全網頁的黑名單包含100億個黑名單網頁,每一個網頁URL最多佔用64B。如今設計系統根據網頁URL判斷該網頁是否在黑名單上。java 要求:該系統容許萬分之一如下的判斷失誤率,且使用的額外空間不要超過30GB。程序員 分析:若是單純經過數據庫或者哈希表來保存下來,須要640G的空間,不知足要求。面試 遇到網頁黑名單系統、垃圾郵件過濾系統、爬蟲的網址判重系統、兩份URL文件的重複URL等
相關文章
相關標籤/搜索