天然語言處理(上交趙海老師)學習筆記之一:概要

1、天然語言處理的對象文字(信息來源:圖象、語音和文字)。html

2、先修課程:python

  1. 數學分析
  2. 機率論與數理統計
  3. 線向代數
  4. 解析幾何
  5. 數據結構與算法基礎
  6. 編程語言:C/C++、python
  7. 機器學習基礎

3、天然語言概念web

  1. 天然語言就是人類的語言,如英語、漢語等。
  2. 與計算機編程語言不一樣,天然語言溝通方式是:據說讀寫
  3. 天然語言的形式是:書面形式和口語形式。今天說的天然語言處理針對的是書面語言的處理。

4、幾個術語與概念:算法

  • 天然語言處理(NLP,Natural Language Processing):經過算法、統計或常識專門處理語言的各類方法的學科。
  • 天然語言理解 (NLU,Natural Language Understanding):對某種天然語言的文本的真正理解。
  • 計算語言學(Computational Linguistic):從語言學的角度來分析、處理天然語言,試圖以機器或計算機模擬人的語言能力。目前來看,計算機語言學和天然語言處理方向一致,二者能夠看做同一事物的不一樣名稱。

 

5、與其餘學科的關係圖以下:編程

 

 

6、天然語言處理的技術挑戰數據結構

1. 知識角度(知識人工智能的核心議題)來看,天然語言處理要處理和兩類知識:機器學習

    • 常識知識:天然語言中的實體知識。
    • 語言知識:天然語言處理的各種詞性、句法、形式語義。

現代天然語言處理就是一個用語言處理這兩類知識的研究和工程分支學科。編程語言

2.相比比計算機編程語言的精確、惟一和無歧義的定義來看,天然語言的形式和語義之間的映射類型有:學習

    • 一對1、多對1、一對多或多對多的映射
    • 一對多映射須要輸入以外的大量另外一的知識才能在目標的形式表示中作出正確選擇。

3. 困難舉例:ui

    • 修飾語附着問題(Modifier attachment problem),對於下面句子,到底making you crazy是修飾job仍是problems

                 Show me all problems in your job making you crazy。

    • 量詞範圍界定問題(Quantifier scoping problem)好比,應英語中each表示通用全部(Ɐ)或者(Ǝ)所指的範圍有多種不一樣理解。
    • 縮略語或省略句(Elliptical utterances)一個問句的解釋可能取決於先前的問句及其解釋。下面甲問的「在哪?」

                 例如:甲:明年是否是舉報奧運會?乙:是的。甲:在哪?乙:日本東京

 

7、機器翻譯的研究歷史

1. 1949年Warren Weaver提出計算機可能對解決世界範圍的翻譯問題有用。70年後,今天翻譯質量仍不盡人意,只是粗略的大義,遠遠不適用於正式場合的文檔產出。這使得人們認識到問題所在,人類語言翻譯是一種複雜的認知和處理能力,涉及到不一樣類型的知識:

    • 句子結構
    • 詞義
    • 聽衆模型(用戶模型)
    • 對話規則(對話翻譯)
    • 關於世界的普遍共享信息

2. 1964年由John R. Pierce發表的ALPAC(Automatic Language Processing Advisory Committee)報告指出,否認短時間內對機器翻譯產生有意義影響的可能性。今後,機器翻譯進入了由30年的低谷期。

3.80年代末90年代初,IMB模型的提出開啓統計機器翻譯的統計機器翻譯(SMT)的時代,機器翻譯低谷期開始復甦。

4.二十世紀初,最小錯誤率訓練(MERT)結合翻譯質量自動得分評估(BLEU)帶動了統計機器翻譯進入全勝時期,特別是2014年穀歌DeepMind提出的NMT(Neural Machine Transaction)神經機器翻譯使得機器翻譯進入了新的時代。

 

8、語言處理層次

 (一)天然語言處理的研究目標:

    • 開發實用、有效的語言處理和分析系統
    • 更好低理解語言和智能的本質

(二)James Allen提出語言分析的層次

1. 形態分析(詞彙分析)Morphological Analysis ,就是指從完整的書寫的詞形式中識別出詞幹,詞形式有時也包括詞幹的句法類別識別,即詞性分析。例如,英語中單詞cowardly =coward (詞幹)+ ly (後綴),ly將名詞變爲形容詞。

  漢語或者大多數東亞語言中的形態或詞彙分析與英語有所不一樣,漢語是詞彙間無間隔的句子書寫方式,因此這就要求,從句子(也就是字的序列)中切分出詞,這個處理稱作中文分詞。

  大多數天然語言分析系統一般首先須要將文本分割爲有語言學意義的符號單元。廣義上來講,這個過程包括分詞(切分)、詞原型提取、詞性標註以及命名實體/短語識別等一大類詞法處理任務。

2. 句法分析(深層、淺層句法分析)(Syntax) 

  句法和語義是關聯的兩個語言層次的概念。句法有時候也不夠嚴格地被稱爲語法或文法(grammer)。 嚴格來講,語法 = 句法 + 語義。

  句法指定義了句子內部各成分之間的形式化的相對位置關係。一般來講,句法 = 詞典 + 規則。句法分析的目標是給各句子成份分配句法類別標籤,並肯定各成份之間的句法關係。

3. 語義分析 Semantic

   語義分析的目的是爲意義完整的話語(utterances)賦予意義,包括詞義及詞義組合,這是一種與上下文無關的意義。

  上下文相關的語義分析包括:

    • 句子層面的語義角色標註任務:給出句子內部的謂詞-論元結構。
    • 詞義消歧
    • 指代消解

4. 語用分析 Pragmatics

指文本符號或會話與會話生產者/用戶之間的關係。他對不一樣的情境上下文背景中,對話語的解釋重大影響。這部分工做困難重重,目前尚未在此方面取得突破性進展。

5. 篇章分析(文本分析)Discourse 針對文本總體論述結構的分析,同時,還負責分析文本句子之間的關係。

6. 世界知識分析:世界知識是指不受限制的常識知識,這個任務是負責推斷出每一個語言用戶必須具有的通常世界知識。例如,用戶在對話中的目的和價值觀。

從詞彙、句法直到世界知識,下一層就是上一層的基礎,當下一層表述不合理時,上一層也沒法實現正確表達。

(三)層次分析舉例

    1. Grey elephants have long noses. [ syntax √  sematics √ ]

    2. White cloud have long noses. [ syntax √ Sematics × ]

    3.  Long have white cloud noses. [ Syntax × Sematics ×  ]

 

 9、天然語言處理系統的兩個應用

從歷史上出現的兩我的機對話系統來看,咱們看看天然語言處理是如何用語言知識來應對通常知識的實際應用場景的。

一個是ELIZA【Webizenbaum, 1966】,它 是1966年在麻省理工學院完成的最著名的模式匹配天然語言處理系統。該系統在對話中扮演心理醫生的角色,使用模式匹配的方法進行輸入並把它轉換成適當的輸出。經過下面地址訪問:https://www.masswerk.at/elizabot/

第二個,20世紀70年代,專家系統確立知識是AI核心問題的共識。也是令人們重拾AI信心的標誌。LUNAR【William Woods,1973】是經過使用ATN句法分析器和規則驅動的語義解釋過程來將英語輸入的問題翻譯成正式的查詢語言的表達式來進行操做,以幫助地質學家訪問、比較和評估月球岩石上的化學數據和土壤成份。

 

 10、研究主題及主要學術組織和會議

1. 對比ACL 2020和2010的徵稿啓事的主題列表,十年中這個主題變化並非很大, 這與深度學習深度滲透NLP 的情景彷佛不符,但也清理之中,這是由於徵稿主題是任務列表而非方法,但機器學習,包括深度學習偏偏是方法。

2. 天然語言處理的主要的國際學術組織ACL及其學術會議

    • ACL 的全稱以下:
      •  Annual Meeting of the Association for Computational Linguistics 
      • the Association for Computational Linguistics
    • ACL的在線文獻庫:https://www.aclweb.org/anthology/

3. 國內的天然語言處理會議

1). 中國計算語言學大會  —— The China National Conference on Computational Linguistics (CCL)

    • 首屆主辦於1991年
    • 中國中文信息學會(Chinese information processing society, CIPS)
    • 計算語言學專委會(Technical committee of computational linguistics)
    • 網址:http://www.cips-cl.org/static/CCL2019/index.html 

2).天然語言處理與中文計算國際會議 —— The CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC)

    • 首屆主辦於2012年
    • 中國計算機學會(China Computer Federation, CCF)
    • 天然語言處理與中文計算專委會(Technical Committee of NLP and Chinese Computation)
    • 網址:http://tcci.ccf.org.cn/conference/2019/
相關文章
相關標籤/搜索