SimHash算法原理

一、什麼是SimHash SimHash算法是Google在2007年發表的論文《Detecting Near-Duplicates for Web Crawling》中提到的一種指紋生成算法,被應用在Google搜索引擎網頁去重的工作之中。 簡單的說,SimHash算法主要的工作就是將文本進行降維,生成一個SimHash值,也就是論文中所提及的「指紋」,通過對不同文本的SimHash值進而比較海
相關文章
相關標籤/搜索