1、天然語言處理的對象:文字(信息來源:圖象、語音和文字)。html
2、先修課程:python
3、天然語言概念web
4、幾個術語與概念:算法
5、與其餘學科的關係圖以下:編程
6、天然語言處理的技術挑戰數據結構
1. 知識角度(知識人工智能的核心議題)來看,天然語言處理要處理和兩類知識:機器學習
現代天然語言處理就是一個用語言處理這兩類知識的研究和工程分支學科。編程語言
2.相比比計算機編程語言的精確、惟一和無歧義的定義來看,天然語言的形式和語義之間的映射類型有:學習
3. 困難舉例:ui
Show me all problems in your job making you crazy。
例如:甲:明年是否是舉報奧運會?乙:是的。甲:在哪?乙:日本東京
7、機器翻譯的研究歷史
1. 1949年Warren Weaver提出計算機可能對解決世界範圍的翻譯問題有用。70年後,今天翻譯質量仍不盡人意,只是粗略的大義,遠遠不適用於正式場合的文檔產出。這使得人們認識到問題所在,人類語言翻譯是一種複雜的認知和處理能力,涉及到不一樣類型的知識:
2. 1964年由John R. Pierce發表的ALPAC(Automatic Language Processing Advisory Committee)報告指出,否認短時間內對機器翻譯產生有意義影響的可能性。今後,機器翻譯進入了由30年的低谷期。
3.80年代末90年代初,IMB模型的提出開啓統計機器翻譯的統計機器翻譯(SMT)的時代,機器翻譯低谷期開始復甦。
4.二十世紀初,最小錯誤率訓練(MERT)結合翻譯質量自動得分評估(BLEU)帶動了統計機器翻譯進入全勝時期,特別是2014年穀歌DeepMind提出的NMT(Neural Machine Transaction)神經機器翻譯使得機器翻譯進入了新的時代。
8、語言處理層次
(一)天然語言處理的研究目標:
(二)James Allen提出語言分析的層次
1. 形態分析(詞彙分析)Morphological Analysis ,就是指從完整的書寫的詞形式中識別出詞幹,詞形式有時也包括詞幹的句法類別識別,即詞性分析。例如,英語中單詞cowardly =coward (詞幹)+ ly (後綴),ly將名詞變爲形容詞。
漢語或者大多數東亞語言中的形態或詞彙分析與英語有所不一樣,漢語是詞彙間無間隔的句子書寫方式,因此這就要求,從句子(也就是字的序列)中切分出詞,這個處理稱作中文分詞。
大多數天然語言分析系統一般首先須要將文本分割爲有語言學意義的符號單元。廣義上來講,這個過程包括分詞(切分)、詞原型提取、詞性標註以及命名實體/短語識別等一大類詞法處理任務。
2. 句法分析(深層、淺層句法分析)(Syntax)
句法和語義是關聯的兩個語言層次的概念。句法有時候也不夠嚴格地被稱爲語法或文法(grammer)。 嚴格來講,語法 = 句法 + 語義。
句法指定義了句子內部各成分之間的形式化的相對位置關係。一般來講,句法 = 詞典 + 規則。句法分析的目標是給各句子成份分配句法類別標籤,並肯定各成份之間的句法關係。
3. 語義分析 Semantic
語義分析的目的是爲意義完整的話語(utterances)賦予意義,包括詞義及詞義組合,這是一種與上下文無關的意義。
上下文相關的語義分析包括:
4. 語用分析 Pragmatics
指文本符號或會話與會話生產者/用戶之間的關係。他對不一樣的情境上下文背景中,對話語的解釋重大影響。這部分工做困難重重,目前尚未在此方面取得突破性進展。
5. 篇章分析(文本分析)Discourse 針對文本總體論述結構的分析,同時,還負責分析文本句子之間的關係。
6. 世界知識分析:世界知識是指不受限制的常識知識,這個任務是負責推斷出每一個語言用戶必須具有的通常世界知識。例如,用戶在對話中的目的和價值觀。
從詞彙、句法直到世界知識,下一層就是上一層的基礎,當下一層表述不合理時,上一層也沒法實現正確表達。
(三)層次分析舉例:
1. Grey elephants have long noses. [ syntax √ sematics √ ]
2. White cloud have long noses. [ syntax √ Sematics × ]
3. Long have white cloud noses. [ Syntax × Sematics × ]
9、天然語言處理系統的兩個應用
從歷史上出現的兩我的機對話系統來看,咱們看看天然語言處理是如何用語言知識來應對通常知識的實際應用場景的。
一個是ELIZA【Webizenbaum, 1966】,它 是1966年在麻省理工學院完成的最著名的模式匹配天然語言處理系統。該系統在對話中扮演心理醫生的角色,使用模式匹配的方法進行輸入並把它轉換成適當的輸出。經過下面地址訪問:https://www.masswerk.at/elizabot/
第二個,20世紀70年代,專家系統確立知識是AI核心問題的共識。也是令人們重拾AI信心的標誌。LUNAR【William Woods,1973】是經過使用ATN句法分析器和規則驅動的語義解釋過程來將英語輸入的問題翻譯成正式的查詢語言的表達式來進行操做,以幫助地質學家訪問、比較和評估月球岩石上的化學數據和土壤成份。
10、研究主題及主要學術組織和會議
1. 對比ACL 2020和2010的徵稿啓事的主題列表,十年中這個主題變化並非很大, 這與深度學習深度滲透NLP 的情景彷佛不符,但也清理之中,這是由於徵稿主題是任務列表而非方法,但機器學習,包括深度學習偏偏是方法。
2. 天然語言處理的主要的國際學術組織ACL及其學術會議
3. 國內的天然語言處理會議
1). 中國計算語言學大會 —— The China National Conference on Computational Linguistics (CCL)
2).天然語言處理與中文計算國際會議 —— The CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC)