【NLP學習筆記】餘弦相似度

一、問題:計算兩個句子之間的相似度 **基本思路:**如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。 二、步驟 第一步,分詞。 第二步,列出兩個句子所有的不重複的詞。 第三步,計算詞頻(TF)。 第四步,寫出各個句子的詞頻向量。 第五步,計算這兩個向量的相似程度。 由此可見,句子的相似程度可以使用餘弦相似度來進行計算。 三、餘弦相似度的原理 我們可以把
相關文章
相關標籤/搜索