利用python對中文文本數據進行LDA訓練、計算機率距離

數據來自於「豆瓣讀書」25名用戶標註圖書的一些標籤(已通過分詞、去停用詞、去除不規範的標籤),目的主要是經過對標籤利用LDA得出25名用戶在各主題上的機率分佈,而後利用JS散度計算機率距離,從而計算25名用戶的類似度,找出某個用戶的近鄰用戶集。 (代碼來自於網絡非原創,只是在此基礎上修改,部分代碼來自http://blog.csdn.net/eastmount/article/details/50
相關文章
相關標籤/搜索