乾貨筆記|NLP Coursera By Michael Collins - Week1

NLP Coursera By Michael Collins - Week1

做者已經推免到上交攻讀學術型碩士,精細的手繪版筆記獻給你們!網絡

構建模型框架 - Markov Process

畢竟是機器學習嘛,因此第一步,先要把實際問題轉化成數學模型。框架

在NLP中,通常使用的都是機率模型,即把語言模型變成機率論範疇。
好比說,如今有一段語音,說的很含糊,沒有聽清楚,好像是「like your」,又好像是「lie cured」。機器學習

那麼究竟是哪種呢?咱們就看在現有的語料庫中,究竟是「like your」出現的機率大,仍是「lie cured」的機率大。ide

因而就把語音識別問題轉變成了一個機率問題:輸入一串字符,輸出這串字符組合在一塊兒的機率,若是機率大,就是正確的句子。學習

下面構建這個模型
乾貨筆記|NLP Coursera By Michael Collins - Week13d

至此,模型框架搭建完畢,可是參數尚未設定好。
也就是說,如今若是向模型中隨便輸入一個句子,要求輸出的結果是這個句子出現的機率。
那麼咱們就須要事先知道模型中,每個p(w|u,v)。
用以下方式來計算:
乾貨筆記|NLP Coursera By Michael Collins - Week1
對於上面的計算方法,不能解決出現機率爲0,但實際這句句子是合理的狀況。code

下面介紹兩種方法,來對上面的計算方法進行改進:視頻

第一種是Linear Interpolation:
乾貨筆記|NLP Coursera By Michael Collins - Week1blog

這裏的三個係數用下面的方法進行選擇:
乾貨筆記|NLP Coursera By Michael Collins - Week1
其實這個方法就是將三種計算機率的方式線性結合起來,具體的結合方式有不少種,上面只是其中一種。數學

上面這個方法中的三個係數和機率自己沒有關係,可是更好的方法是讓他們有關係:

bucketing法:對不一樣範圍內的counts,使用不一樣的係數
乾貨筆記|NLP Coursera By Michael Collins - Week1

將三個係數都寫成同一個參數的線性組合:
乾貨筆記|NLP Coursera By Michael Collins - Week1
第二種是Discounting Method:

這個方式就是,從機率不爲0的狀況中分出一部分的機率給機率爲0的狀況。
乾貨筆記|NLP Coursera By Michael Collins - Week1

至此爲止,整個模型搭建完畢。

評價模型

通常狀況下:
乾貨筆記|NLP Coursera By Michael Collins - Week1

當服從均勻分佈的時候:
乾貨筆記|NLP Coursera By Michael Collins - Week1
以上就是這一週的課程中講的內容。notes中的內容和這個同樣,基本沒有什麼補充。

下面用一張流程圖來總結一下整個模型的構建過程。
乾貨筆記|NLP Coursera By Michael Collins - Week1

第一週帶字幕帶課程分享在公衆號會話內回覆week1,便可得到視頻下載地址!

推薦閱讀:

【西瓜書】周志華《機器學習》學習筆記與習題探討(一)
天然語言處理中CNN模型幾種常見的Max Pooling操做
乾貨|很是詳細的神經網絡入門解釋

全是通俗易懂的硬貨!只需置頂~歡迎關注交流~

乾貨筆記|NLP Coursera By Michael Collins - Week1

乾貨筆記|NLP Coursera By Michael Collins - Week1

相關文章
相關標籤/搜索