大數據文本相似去重方案

通過 採集系統 我們採集了大量文本數據,但是文本中有很多重複數據影響我們對於結果的分析。分析前我們需要對這些數據去除重複,如何選擇和設計文本的去重算法?常見的有餘弦夾角算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等。這些算法對於待比較的文本數據不多時還比較好用,如果我們的爬蟲每天採集的數據以千萬計算,我們如何對於這些海量千萬級的數據進行高效的合併去重。最簡單的做法是拿着待比較的文本
相關文章
相關標籤/搜索