實時重複文章識別——SimHash

時間 2021-01-21

標籤 simhash 简体版

原文原文鏈接

一、背景介紹在前邊的文章中，我們採用的是用google的Doc2Vec模型來識別重複文章的，從線上運行的效果來看，它的準確率是比較高的。當然，這是建立在把所有的文章都當做訓練數據來訓練Doc2Vec模型的基礎上的，它推斷出一篇文章的向量之後再去做相似計算的效果是不太好的。況且，訓練模型的耗時是比較長的，因此，這種模型的適用性只適合於離線計算文章之間的相似，並不適合實時識別重複文章，由於我

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。