基於EM算法的文本聚類

文本聚類問題: 一個文本爲一個向量,向量的長度爲字典的長度,這個向量中的每個值爲0或1,表示這個單詞是否在該文章中出現。 假設爲二分類,則每個向量對應一個分類值,分類值爲0或1,如果爲三分類,則分類值爲0,1,2。而這個標籤值爲隱變量Z。 這裏的觀測O爲具體的各個向量。在這個模型裏,參數是什麼呢? 我們需要由參數出發,經由隱變量,計算得到觀測O,因此這裏的參數設計可以類似於隱馬爾可夫模型的參數設計
相關文章
相關標籤/搜索