利用python對中文文本數據進行LDA訓練、計算機率距離

時間 2020-07-25

標籤利用 python 中文文本數據進行 lda 訓練計算機率距離欄目 Python 简体版

原文原文鏈接

數據來自於「豆瓣讀書」25名用戶標註圖書的一些標籤（已通過分詞、去停用詞、去除不規範的標籤），目的主要是經過對標籤利用LDA得出25名用戶在各主題上的機率分佈，而後利用JS散度計算機率距離，從而計算25名用戶的類似度，找出某個用戶的近鄰用戶集。（代碼來自於網絡非原創，只是在此基礎上修改,部分代碼來自http://blog.csdn.net/eastmount/article/details/50

>>阅读原文<<