這幾天又陸陸續續的讀了關於一些關於NLP上語言模型的書籍,簡單總結了下本身的新的認識:
html
一:語言模型的性能評價:算法
1:語言模型的評價目標:windows
語言模型的計算的機率分佈可以與真實的理想模型的機率分佈能夠相接近(這一點實際上是比較困難的,可是這是咱們一直追求的目標)性能
2:困難:學習
沒法知道語言模型的理想模型的真實分佈翻譯
3:經常使用的幾個指標;cdn
交叉熵,困惑度(這又涉及到了關於熵的相關計算,這將和離散數學和圖論上學習到的知識應用到實際生產生活中)htm
4:天然語言統計方法的通常步驟:blog
1:收集大量的語料(這是基礎操做,也是工做量最大的操做)get
2:針對語料進行統計分析,得出知識(知識是一些機率,好比像n元語法這樣)
3:針對某些場景創建算法,即便是計算簡單的機率也會有複雜的算法能夠運用,有的甚至能夠直接標註(與nlp相關的算法很複雜,可是幸虧翻來覆去就這幾個)
二:語言模型給個人啓示:
開啓了天然語言處理的統計方法時代,統計語言模型大概是天然語言處理中最簡潔也最漂亮的模型了,在天然語言處理中,統計語言模型的應用包括語音識別、機器翻譯、中文分詞、拼寫檢查、語言識別、輸入法等等,以致於Google科學家吳軍老師的《數學之美》系列第一篇就介紹了統計語言模型
n元語言模型的應用很是普遍,最先期的應用是語音識別、機器翻譯等問題。哈爾濱工業大學王曉龍教授最先將其應用到音字轉換問題,提出了「語句級拼音輸入法」,後來該技術轉讓給微軟,也就是後來的微軟拼音輸入法。從windows95開始,系統就會自動安裝該輸入法,並在之後更高版本的windows中和Office辦公軟件都會集成最新的微軟拼音輸入法。n年以後,各個輸入法的新秀(如搜狗和谷歌)也都採用了n元語法模型技術。
正是由於這麼多的應用,語言模型的發明開啓了天然語言處理的新時代
這裏推薦幾本本身看過,自覺得以爲不錯的書,也但願你們多多交流:
1: