暑假開始研究NLP,先從宗成慶老師的《統計天然語言處理》開始學起。網絡
1、語言:語言是由語音、詞彙和語法構成的,語音和文字是構成語言的兩個基本屬性,語音是語言的物質外殼,文字則是記錄語言的書寫符號系統。工具
2、語音學:1)發音語音學(articulatory phonetics)翻譯
2)聲學語音學(acoustic phonetics)設計
3)聽覺語音學(auditory phonetics)遊戲
4)儀器語音學(instrumental phonetics)文檔
3、天然語言處理的概念:利用計算機爲工具對人類特有的書面形式和口頭形式的天然語言的信息進行各類類型加工、處理的技術。it
交叉學科:語音識別(speech recongnition)io
語音合成(speech synthesis)登錄
語音應用:1)人機對話系統基礎
2)語音翻譯
3)語音文檔摘要
4)語音文檔檢索
4、NLP研究的內容:1)機器翻譯;2)自動文摘;3)信息檢索;4)文檔分類;5)問答系統;6)文字編輯和自動校對;7)信息過濾;8)語音教學;9)文字識別;
10)語音識別ASR;11)文語轉換;12)說話人識別、認證、驗證
5、天然語言處理設計的層次:1)形態學
2)語法學
3)語義學
4)語用學
6、面臨的困難:1)歧義消解(disambiguation)
2)未知語言現象處理(如網絡語言、火星語、遊戲語言)
歧義分析結果隨着介詞短語數目的增長呈現指數上升
組合數開塔蘭數
歧義的種類:1)句法結構歧義;2)詞類歧義;3)詞義歧義;4)語義歧義
7、NLP的基本方法和步驟
1)收集語料做爲統計模型創建的基礎
2)篩選加工
8、須要課後百度的關鍵詞:上下文無關文法、HMM、噪聲信道模型、語義的形式化與計算問題、句法分析問題、指代歧義消解問題、漢語自動分詞中的未登陸詞識別問題