文本挖掘學習（五）文檔相似度、文檔聚類

時間 2021-01-18

原文原文鏈接

1.文檔相似度基於詞袋模型的基本思路如果兩個文檔/兩句話的用詞越相似，他們的內容就越相似。因此可以從詞頻入手，計算他們的相似度文檔向量化之後，相似度的考察就直接轉化爲計算空間中距離的問題缺陷：不能考慮否定詞的巨大作用，不能考慮詞序的作用餘弦相似度兩個向量間的夾角能夠很好地反映其相似程度但夾角大小使用不便，因此用夾角的餘弦值作爲相似度衡量指標 # 文本相似度 # 基於詞袋模型計算 #c

>>阅读原文<<