文本相似度餘弦相似度算法原理

餘弦相似度基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。 第一步,預處理主要是進行中文分詞和去停用詞,分詞。 第二步,列出所有的詞。 第三步,計算詞頻。 第四步,寫出詞頻向量。   餘弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"餘弦相似性"。 餘弦相似度缺陷 這類算法沒有很好地解決文本數據中存在的自然語言問題,即同義詞
相關文章
相關標籤/搜索