simhash簡介

先貼一張網上的圖片: 解釋一下圖片:這裏feature可以指一篇文檔分詞後的某個詞,即將文檔中的某個詞作爲一個特徵。weight是這個詞的權重,這裏可以是這個詞在這個句子中出現的次數。 這裏的hash算法就是傳統的hash算法,通過調用一個hash函數實現的。 simhash是爲了計算一篇文檔之間的相似度存在的,通過simhash算法可以計算出文檔的simhash值,通過各個文檔計算出的二進制值來
相關文章
相關標籤/搜索