【轉】simhash與Google的網頁去重

Simhash    傳統IR領域內文本相似度比較所採用的經典方法是文本相似度的向量夾角餘弦,其主要思想是根據一個文章中出現詞的詞頻構成一個向量,然後計算兩篇文 章對應向量的向量夾角。但由於有可能一個文章的特徵向量詞特別多導致整個向量維度很高,使得計算的代價太大,對於Google這種處理萬億級別的網頁的搜 索引擎而言是不可接受的,simhash算法的主要思想是降維,將高維的特徵向量映射成一個f-b
相關文章
相關標籤/搜索