【轉】simhash與Google的網頁去重

時間 2021-01-08

原文原文鏈接

Simhash 傳統IR領域內文本相似度比較所採用的經典方法是文本相似度的向量夾角餘弦，其主要思想是根據一個文章中出現詞的詞頻構成一個向量，然後計算兩篇文章對應向量的向量夾角。但由於有可能一個文章的特徵向量詞特別多導致整個向量維度很高，使得計算的代價太大，對於Google這種處理萬億級別的網頁的搜索引擎而言是不可接受的，simhash算法的主要思想是降維，將高維的特徵向量映射成一個f-b