海量數據去重之SimHash算法簡介和應用

最近在搞數據庫,發現數據冗餘重複現象太嚴重,稍微瞭解了下,基本思路是:bloom filter,simhash,自定義摘要   因爲之前稍微有接觸 bloom filter,找了些simhash的文章學習,下面是個人覺得較好的一篇博客:   SimHash是什麼 SimHash是Google在2007年發表的論文《Detecting Near-Duplicates for Web Crawling
相關文章
相關標籤/搜索