text mining week4

一、文本聚類 1. 概念 用戶必須定義是從什麼角度來判斷相似性,而這個角度即爲聚類偏差。 2. 方式:生成概率模型 (1) 主題模型與聚類 input: a text collection C and a number of topics k, and vocabulary V output: 詞分佈,每一個文檔覆蓋一個話題的概率 input: a text collection C and a
相關文章
相關標籤/搜索