六種常用的文本聚類算法介紹

文本聚類算法介紹 分類和聚類都是文本挖掘中常使用的方法,他們的目的都是將相似度高的對象歸類,不同點在於分類是採用監督學習,分類算法按照已經定義好的類別來識別一篇文本,而聚類是將若干文本進行相似度比較,最後將相似度高的歸爲一類。在分類算法中,訓練集爲已經標註好的數據集,但是微博文本具有的大數據特性及不確定性決定了標註數據的難度,因此本文選擇聚類算法對大量且隨機的微博文本進行處理。 大量文本建模後還需
相關文章
相關標籤/搜索