天然語言處理 --- L01

基本概念

  • 天然語言理解, NLU, Understanding

    形式化(標準化)的數學符號、模型, 模擬人的語言能力算法


  • 計算語言學, Computational Linguistics

    數學模型機器學習


  • 天然語言處理, NLP

    更寬泛的概念。工具

    利用計算機, 對人類的書面和口頭形式的天然語言的信息進行處理和加工學習


  • 語言

    一個符號系統, 意義(知識) + 規則(語法)測試


  • 第一系統 --- 語音系統 Sound System

    第二系統 --- 文字系統(書寫系統) Writing System優化


  • 口頭語和書面語


  • 語言和言語


  • 語言單位

    單個字符, 詞(word), 短語(Phrase), 句子(Sentence), 語段, 篇章(Utterence)ui


  • 天然語言的做用

    思惟的載體, 交流的工具this

    人類歷史以語言文字形式記載和流傳的只是佔總量的 80% 以上, 圖表佔的比例很小搜索引擎


  • 基本問題

    如何讓計算機具備語言處理的能力,如何讓計算機實現自動的或人機互助的語言處理功能人工智能

    如何利用計算機處理海量的語言信息,自動處理,知識挖掘,有效利用


  • 學科特色 --- 交叉性學科

    語言學:形式語言文法,詞典、語料庫(標註、分詞等)、知識庫

    數學:機率論、統計學、信息論,自動機、Markov模型、HMM模型

    計算機科學:自動機器學習,自動人工智能,狀態空間的圖搜索算法

    心理語言學:研究人類理解天然語言的機制


  • 語言學基本知識:語言研究的基本範疇


例子

  • 英漢翻譯

    Miss Smith put two books on this table


  • 形態分析

    詞形還原, Lemmatization, 變成原型

    詞彙符號化, Tokenization, 至關於中文分詞

    Miss
    Smith
    put

    語法分析, Syntac, 主謂賓, 語音合成, 讀的時候的節奏變化

    [Miss Smith] [put] [two books] [on the table]

    詞彙轉換(單詞轉換)

    短語轉換(語序轉換)

    優化


天然語言處理研究的不一樣層次

  • 應用系統(數字圖書館,電子商務,電子政務,自助服務,語言學習)


  • 應用技術研究(自動問答,機器翻譯,信息檢索,文本挖掘,自動校對,信息抽取)


  • 基礎研究(分詞,標註,切分)


  • 資源建設


  • 語言學知識庫建設


天然語言處理的應用

  • 基於文本的應用

    關鍵詞(同近義詞,模糊,自動理解天然語言)搜索引擎

    翻譯

    自動文摘,消息抽取


  • 基於對話的應用:

    問答系統

    教學系統


問題

  • 機器能處理天然語言,但機器能理解天然語言嗎


  • 結構主義,理性主義:理解語言的步驟,但人本身可能也說不清本身理解語言的步驟

    經驗主義,功能主義:機器的表現與人相同

    圖靈測試:若是經過天然語言問答,一我的沒法識別和他對話的是人仍是機器,那麼就應該認可機器具備智能


困難

  • 歧義 ambiguity

    語義,結構,詞法,語音

    《施氏食獅史》
    石室詩士施氏,嗜獅,誓食十獅。施氏時時適市視獅。十時,適十獅適市。是時,適施氏適市。施氏視是十獅,恃矢勢,使是十獅逝世。氏拾是十獅屍,適石室。石室溼,氏使侍拭石室。石室拭,氏始試食是十獅屍。食時,始識是十獅屍,實十石獅屍。試釋是事。
  • 大量位置語言現象

    新的詞彙,術語,含義,用法,結構


NLP的研究內容

NLP的研究內容(應用)

語言分析的知識層次

相關文章
相關標籤/搜索