LDA主題模型困惑度計算

    對於LDA模型,最經常使用的兩個評價方法困惑度(Perplexity)、類似度(Corre)。html     其中困惑度能夠理解爲對於一篇文章d,所訓練出來的模型對文檔d屬於哪一個主題有多不肯定,這個不肯定成都就是困惑度。困惑度越低,說明聚類的效果越好。post    計算公式     分母是測試集中全部單詞之和,即測試集的總長度,不用排重。其中p(w)指的是測試集中每一個單詞出現的機率
相關文章
相關標籤/搜索