文本挖掘學習(五) 文檔相似度、文檔聚類

1.文檔相似度 基於詞袋模型的基本思路 如果兩個文檔/兩句話的用詞越相似,他們的內容就越相似。因此可以從詞頻入手,計算他們的相似度 文檔向量化之後,相似度的考察就直接轉化爲計算空間中距離的問題 缺陷:不能考慮否定詞的巨大作用,不能考慮詞序的作用 餘弦相似度 兩個向量間的夾角能夠很好地反映其相似程度 但夾角大小使用不便,因此用夾角的餘弦值作爲相似度衡量指標 # 文本相似度 # 基於詞袋模型計算 #c
相關文章
相關標籤/搜索