R語言中對文本數據進行主題模型topic modeling分析

時間 2021-01-16

標籤 R語言 topic modeling 主題模型简体版

原文原文鏈接

主題建模在文本挖掘中，我們經常收集一些文檔集合，例如博客文章或新聞文章，我們希望將其分成自然組，以便我們可以分別理解它們。主題建模是對這些文檔進行無監督分類的一種方法，類似於對數字數據進行聚類，即使我們不確定要查找什麼，也可以找到自然的項目組。潛在狄利克雷分配（LDA）是擬合主題模型特別流行的方法。它將每個文檔視爲主題的混合體，並將每個主題看作是單詞的混合體。這允許文檔在內容方面相互「重疊」，

>>阅读原文<<