關於LDA主題模型,一度是NLP領域一個很是火的模型,後來深度學習大放異彩,它的熱度才慢慢降了下來。算法
因爲數學基礎不好,一直沒有理解LDA的整個核心。到目前爲止,也只是理解了皮毛。記錄一下關於LDA主題模型相關的學習資料。機器學習
LDA主題模型屬於編碼簡單,可是數學功底要求較高的一個機器學習模型,在搜索引擎和廣告領域有用到。按照《LDA 數學八卦》做者靳志輝老師的說法,是一個比較簡單的模型,前提是須要數學功底紮實。若是統計學基礎紮實,理解LDA主題模型基本是一馬平川。ide
理解LDA主題模型,其實包含4大塊的內容: 微積分基礎,機率論與數理統計基礎, 隨機模擬算法, 文本建模思路。LDA數學八卦講解的思路就是微積分-分佈函數-隨機模擬-文本建模這條主線的。我的認爲,若是數學基礎比較差的話,光靠《LDA數學八卦》是很難理解清楚LDA主題模型的。出於彌補數學短板的目的,也是出於興趣,我先後看了一些書。以下的書籍我以爲仍是不錯的。函數
《普林斯頓微積分讀本》 這本書從高中數學的基本函數開始,到微積分的各類技巧。講解細緻,學習曲線平緩。學習
若是這本書以爲枯燥,能夠配合以下的4本科普入門。
《數學悖論與三次數學危機》
《天才引導的歷程:數學中的偉大定理》
《微積分的歷程:從牛頓到勒貝格》
《簡單微積分 : 學校未教過的超簡易入門技巧》搜索引擎
這幾本書下來,不敢說理解微積分了,至少看到微積分的那個求和符號會感受親切不少。編碼
關於數理統計,有幾個我的名不得不提: 陳希儒,吳喜之,茆詩鬆。
《機會的數學》
《數理統計學簡史》教程
上面兩本是科普層面的書,簡史中數學推導有點難,可是不妨礙理解整個主線條。接下來就是比較硬的專業書籍了。索引
《機率論與數理統計教程》(茆詩鬆)
《機率論與數理統計》(陳希孺)
《數理統計學教程》(陳希孺)
《貝葉斯統計》(茆詩鬆)深度學習
這裏面能看懂多少是多少吧,我到如今也只能理解不多的一部分。到這裏,就到了LDA數學八卦裏面提到的數學不超出《機率論與數理統計》這本書的層級了。其實,陳院士的這本書難度仍是頗大的,畢竟立足點高遠。就像《高觀點下的初等數學》那樣,儘管講解的是初等數學,可是無奈站的過高,只能仰望。 吳喜之教授的幾本書,在豆瓣上評價也挺不錯的,能夠搭配着看。
其實隨機模擬是比較簡單的。這裏推薦一本講隨機模擬的書,儘管裏面沒有講Gibbs算法。我是看了這本書,才理解了MCMC算法的基本思路的。我的以爲對於理解MCMC算法很是有幫助。
《隨機模擬方法與應用》
看完這本書的幾個章節估計就能理解清楚MCMC算法的前因後果了。 幾乎沒有書籍專門講解MCMC是由於它的內容基本不足以支撐一本書。
《統計模擬》在豆瓣的評價也不錯,應該能夠搭配着看。
我理解文本建模就是數學建模。各類下降現實問題複雜度的假設,好比詞袋模型。其實有了前面的數學基礎,這裏應該是不須要看什麼書來幫助理解的。若是必定要看一下的話,吳軍老師的《數學之美》我以爲應該不錯。再或者,看一下《統計天然語言處理基礎》。
我的以爲,看書不必嚴格按照必定的前後順序,相互印證,配合理解纔是王道。
整個路徑梳理下來,感受對於機器學習的模型,最關鍵的仍是數學功底。去年看了一些數學類的書籍,感受數學仍是至關有意思的,關鍵在於選擇合適本身當前水平的書,才能不至於由於難度太大而喪失探索的興趣和慾望。 李健老師說"重複也是一種力量", 路慢慢其修遠兮,呵護培養着興趣,且行且珍惜吧。