實時重複文章識別——SimHash

一、背景介紹     在前邊的文章中,我們採用的是用google的Doc2Vec模型來識別重複文章的,從線上運行的效果來看,它的準確率是比較高的。當然,這是建立在把所有的文章都當做訓練數據來訓練Doc2Vec模型的基礎上的,它推斷出一篇文章的向量之後再去做相似計算的效果是不太好的。況且,訓練模型的耗時是比較長的,因此,這種模型的適用性只適合於離線計算文章之間的相似,並不適合實時識別重複文章,由於我
相關文章
相關標籤/搜索