海量數據去重之SimHash算法簡介和應用

時間 2021-01-07

原文原文鏈接

最近在搞數據庫，發現數據冗餘重複現象太嚴重，稍微瞭解了下，基本思路是：bloom filter,simhash,自定義摘要因爲之前稍微有接觸 bloom filter，找了些simhash的文章學習，下面是個人覺得較好的一篇博客： SimHash是什麼 SimHash是Google在2007年發表的論文《Detecting Near-Duplicates for Web Crawling

>>阅读原文<<