機器學習筆記(3)——使用聚類分析算法對文本分類(分類數k未知)

聚類分析是一種無監督機器學習(訓練樣本的標記信息是未知的)算法,它的目標是將類似的對象歸到同一個簇中,將不類似的對象歸到不一樣的簇中。若是要使用聚類分析算法對一堆文本分類,關鍵要解決這幾個問題:python 如何衡量兩個對象是否類似 算法的性能怎麼度量 如何肯定分類的個數或聚類結束的條件 選擇哪一種分類算法  下面就帶着這幾個問題,以我工做中的一個業務需求爲例,來學習一下怎麼對中文文本進行聚類。(
相關文章
相關標籤/搜索