SparkMllib主題模型案例講解

一  本文涉及到的算法 1, LDA主題模型 符號定義 文檔集合D,m篇,topic集合T,k個主題 D中每個文檔d看作一個單詞序列< w1,w2,...,wn >,wi表示第i個單詞,設d有n個單詞。(LDA裏面稱之爲word bag,實際上每個單詞的出現位置對LDA算法無影響) D中涉及的所有不同單詞組成一個大集合VOCABULARY(簡稱VOC) LDA符合的分佈 每篇文章d(長度爲)都有各
相關文章
相關標籤/搜索