主題模型概述

傳統的方法一般只停留在文檔的表面統計信息(例如tf-idf、textrank等),對於文本中豐富的信息無法充分地進行利用,尤其是潛在的語義信息,例如兩篇文檔出現的詞很少甚至沒有,但是兩個文檔很相似,比如,文檔1:蘋果手機會不會降價?文檔2:喬布斯的家鄉在哪? 主題模型是用來在大量文檔中發現潛在主題的一種統計模型。通俗地講,主題模型認爲在詞與文檔之間應該當還存在一個維度將它們串聯起來,主題模型將這個
相關文章
相關標籤/搜索