主題模型(一)LSA(LSI)

先考慮這樣一個問題,給定若干篇文檔集合,怎麼從中找出最相似的兩篇? 相似性可以由余弦距離衡量。餘弦距離公式: c o s ( a → , b → ) = a → ∗ b → ∣ a ∣ ∗ ∣ b ∣ cos(\overrightarrow{a}, \overrightarrow{b}) = { \overrightarrow{a}*\overrightarrow{b} \over |a|*|b|
相關文章
相關標籤/搜索