主題模型--頻率派與貝葉斯學派之爭始末

一、詞袋模型/N-gram模型的明顯缺陷     這兩個模型最大的缺陷就是無法識別出兩個不同的詞或詞組具有相同的主題,造成這個缺陷的可能原因: -- N-gram模型是基於馬爾科夫網絡 -- 中心詞只和前N個詞或者後N個詞有關係 -- 中心詞是具體的詞,因此兩個不同的中心詞就是不同的團,自然就認爲是兩個不同的主題 二、PLSA     1、一個用生成模型來建模文章的生成過程,具體文本生成過程如下:
相關文章
相關標籤/搜索