《2018天然語言處理研究報告》整理(附報告)

2018天然語言處理研究報告整理

這篇文章是閱讀AMiner《2018天然語言處理研究報告》前幾篇內容整理所得。數據庫

一. 天然語言處理概述

天然語言處理就是要計算機理解天然語言,計算機要理解天然語言文本的意義,最後能以天然文本形式來表達意圖。處理過程主要是理解、轉化、生成。網絡

天然語言的理解和分析是一個層次化的過程,許多語言學家把這一過程分爲五個層次, 能夠更好地體現語言自己的構成,五個層次分別是工具

語音分析、詞法分析、句法分析、語義分析和語用分析。學習

天然語言處理的研究能夠分爲基礎性研究和應用性研究兩部分,語音和文本是兩類 研究的重點。測試

ACL、EMNLP、NAACL、COLING 4個會議是天然語言處理最重要的4個會議。搜索引擎

二. 天然語言處理髮展歷程

1950年「圖靈測試」到70年代前,這時的天然語言處理停留在理性主義思潮階段,以基於規則的方法爲表明。google

70年代後互聯網高速發展,天然語言處理思潮由經驗主義向理性主義過渡,基於統計的方法逐漸代替了基於規則的方 法。人工智能

從 2008 年到如今,在圖像識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來作天然語言處理研究。翻譯

三. 天然語言處理技術

截屏2020-01-11下午4.44.27

天然語言處理的基礎研究方面,天然語言的基礎技術包括詞彙、短語、 句子和篇章級別的表示,分詞、句法分析和語義分析以及語言認知模型和知識圖譜等。視頻

基礎技術

  1. 詞法分析
    主要任務是詞性標註和詞義標註。

  2. 句法分析
    主要任務是判斷句子的句法結構和組成句子的各成分,明確它們之間的相互關係。

  3. 語義分析
    主要任務是根據句子的句法結構和句子中每一個實詞的詞義推導出可以反映這個句子意義的形式化表示。

  4. 語用分析
    語用指人對語言的具體運用,主要任務是研究和分析語言使用者的真正用意,它與語境、語言使用者的知識涵養、言語行爲、想法和意圖是分不開的,是對天然語言的深層理解。情景語境和文化語境是語境分析主要涉及的方面。
  5. 篇章分析
    將研究擴展到句子的界限以外,主要任務是對段落和整篇文章進行理解和分析。

  6. 知識圖譜
    表示知識,描述客觀世界的概念、實體、事件等之間關係的一種表示形式。知識圖譜在表現形式上與語義網絡比較相似,不一樣的是,語義網絡側重於表示概念與概念之間的關係,而知識圖譜更側重於表述實體之間的關係。如今的知識網絡被用來泛指大規模的知識庫。

除此以外,天然語言的基礎研究還涉及詞義消歧、指代消解、命名實體識別等方面的研究。

應用技術

  1. 機器翻譯
    指運用機器,經過特定的計算機程序將一種書寫形式或聲音形式的天然語言,翻譯成另外一種書寫形式或聲音形式的天然語言。按照媒介能夠將機器翻譯分爲文本翻譯、語音翻譯、圖像翻譯以及視頻和 VR 翻譯等。

  2. 信息檢索
    從相關文檔集合中查找用戶所需信息的過程。先將信息按必定的方式組織和存儲起來,而後根據用戶的需求從已經存儲的文檔集合當中找出相關的信息,這是廣義的信息檢索。信息檢索包括「存」與「取」兩個方面,對信息進行收集、標引、描述、組織,進行有 14 序的存放是「存」。按照某種查詢機制從有序存放的信息集合(數據庫)中找出用戶所需信息或獲取其線索的過程是「取」。搜索引擎能夠當作是一種特殊且重要的信息檢索系統。

  3. 情感分析
    又稱意見挖掘,是指經過計算技術對文本的主客觀性、觀點、情緒、極性的挖掘和分析,對文本的情感傾向作出分類判斷。情感分析是天然語言理解領域的重要分支,涉及統計學、語言學、心理學、人工智能等領域的理論與方法。情感分析在電商評價、互聯網輿情分析、選舉預測等地方發揮重要做用。

  4. 自動問答
    指利用計算機自動回答用戶所提出的問題以知足用戶知識需求的任務。問答系統是信息服務的一種高級形式,系統反饋給用戶的再也不是基於關鍵詞匹配排序的文檔列表,而是精準的天然語言答案,這和搜索引擎提供給用戶模糊的反饋是不一樣的。
  5. 自動文摘
    運用計算機技術,依據用戶需求從源文本中提取最重要的信息內容,進行精簡、提煉和總結,最後生成一個精簡版本的過程。生成的文摘具備壓縮性、內容完整性和可讀性。
  6. 社會計算
    也稱計算社會學,是指在互聯網的環境下,以現代信息技術爲手段,以社會科學理論爲指導,幫助人們分析社會關係,挖掘社會知識,協助社會溝通,研究社會規律,破解社會難題的學科。社會媒體是社會計算的主要工具和手段,社會網絡是一種關係網絡,經過我的與羣體及其相互之間的關係和交互,發現它們的組織特色、行爲方式等特徵,進而研究人羣的社會結構,以利於他們之間的進一步共享、交流與協做。
  7. 信息抽取
    主要是指從文本中抽取出特定的事實信息。與之關係密切的是信息檢索,信息檢索主要是要從大量的文檔中找到用戶所須要的文檔,而信息抽取是獲取用戶感興趣或所須要的事實信息,這就須要對文本有深刻的理解和分析。信息檢索的結果能夠做爲信息抽取的範圍,提升效率,信息抽取用於信息檢索能夠提升檢索質量,更好地知足用戶的需求。

四. 天然語言處理機構

下面列舉的是天然語言處理方向研究較好的一些機構。

工業界

國外: google、微軟亞洲研究院、Facebook

國內:百度、阿里、騰訊、京東、科大訊飛

國外學術界

截屏2020-01-11下午5.09.52

從國家來看,美國是天然語言處理研究學者彙集 最多的國家,英國、德國、加拿大和意大利緊隨其後;從地區來看,美國東部是天然語言處理人才的集中地,而西歐、美國西部等其餘先進地區也吸引了大量天然語言處理的研究者。

國內學術界

  • 清華大學
  • 北京大學
  • 中科院
  • 哈爾濱工業大學
  • 復旦大學
  • 蘇州大學
相關文章
相關標籤/搜索