LDA主題模型發展歷程(1)

**spa

主題模型發展歷程

**
首先從Unigram model談起,基於Unigram model加入貝葉斯先驗獲得貝葉斯Unigram model,再基於SVD分解獲得LSA模型,在LSA模型的基礎上加入機率化的解釋,就獲得了PLSA,在PLSA的基礎上加入先驗化的分佈就獲得了LDA。.net

Unigram Model

clipboard.png
clipboard.png
clipboard.png

貝葉斯Unigram Model

對於以上模型,貝葉斯統計學派持有不一樣的意見,他們認爲只假設上帝擁有一個固定的骰子不合理。在貝葉斯學派看來,一切參數都是隨機變量,因此認爲以上模型中的骰子不是惟一固定的,它也是一個隨機變量。流程以下:blog

clipboard.png
clipboard.png

LSA

LSA(隱性語義分析)的目的是要從文本中發現隱含的語義維度-即「Topic」。咱們知道,在文檔的空間向量模型中,文檔被表示成由特徵詞出現機率組成的多維向量,能夠對不一樣詞項賦予不一樣的權重,在文本檢索、分類、聚類問題中都獲得了普遍應用,然而,向量空間模型沒有能力處理一詞多義和一義多詞問題,例如同義詞也分別被表示成獨立的一維,計算向量的餘弦類似度時會低估用戶指望的類似度;而某個詞項有多個詞義時,始終對應同一維度,所以計算的結果會高估用戶指望的類似度。
LSA方法的引入就能夠減輕相似的問題。基於SVD分解,咱們能夠構造一個原始向量矩陣的一個低秩逼近矩陣,具體的作法是將詞項文檔矩陣作SVD分解ip

clipboard.png

其中是以詞項(terms)爲行, 文檔(documents)爲列作一個大矩陣. 設一共有t行d列, 矩陣的元素爲詞項的tf-idf值。而後把∑的r個對角元素的前k個保留(最大的k個保留), 後面最小的r-k個奇異值置0, 獲得∑k;最後計算一個近似的分解矩陣文檔

clipboard.png

則Ck在最小二乘意義下是的最佳逼近。因爲∑k最多包含k個非零元素,因此Ck的秩不超過k。經過在SVD分解近似,咱們將原始的向量轉化成一個低維隱含語義空間中,起到了特徵降維的做用。每一個奇異值對應的是每一個「語義」維度的權重,將不過重要的權重置爲0,只保留最重要的維度信息,去掉一些信息「nosie」,於是能夠獲得文檔的一種更優表示形式。get

參考:
《LDA數學八卦》
https://blog.csdn.net/pipisor...數學

相關文章
相關標籤/搜索