文本相似度餘弦相似度算法原理

時間 2020-12-25

原文原文鏈接

餘弦相似度基本思路是：如果這兩句話的用詞越相似，它們的內容就應該越相似。因此，可以從詞頻入手，計算它們的相似程度。第一步，預處理主要是進行中文分詞和去停用詞，分詞。第二步，列出所有的詞。第三步，計算詞頻。第四步，寫出詞頻向量。餘弦值越接近1，就表明夾角越接近0度，也就是兩個向量越相似，這就叫"餘弦相似性"。餘弦相似度缺陷這類算法沒有很好地解決文本數據中存在的自然語言問題，即同義詞