這篇文章是閱讀AMiner《2018天然語言處理研究報告》前幾篇內容整理所得。數據庫
天然語言處理就是要計算機理解天然語言,計算機要理解天然語言文本的意義,最後能以天然文本形式來表達意圖。處理過程主要是理解、轉化、生成。網絡
天然語言的理解和分析是一個層次化的過程,許多語言學家把這一過程分爲五個層次, 能夠更好地體現語言自己的構成,五個層次分別是工具
語音分析、詞法分析、句法分析、語義分析和語用分析。學習
天然語言處理的研究能夠分爲基礎性研究和應用性研究兩部分,語音和文本是兩類 研究的重點。測試
ACL、EMNLP、NAACL、COLING 4個會議是天然語言處理最重要的4個會議。搜索引擎
1950年「圖靈測試」到70年代前,這時的天然語言處理停留在理性主義思潮階段,以基於規則的方法爲表明。google
70年代後互聯網高速發展,天然語言處理思潮由經驗主義向理性主義過渡,基於統計的方法逐漸代替了基於規則的方 法。人工智能
從 2008 年到如今,在圖像識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來作天然語言處理研究。翻譯
天然語言處理的基礎研究方面,天然語言的基礎技術包括詞彙、短語、 句子和篇章級別的表示,分詞、句法分析和語義分析以及語言認知模型和知識圖譜等。視頻
詞法分析
主要任務是詞性標註和詞義標註。
句法分析
主要任務是判斷句子的句法結構和組成句子的各成分,明確它們之間的相互關係。
語義分析
主要任務是根據句子的句法結構和句子中每一個實詞的詞義推導出可以反映這個句子意義的形式化表示。
篇章分析
將研究擴展到句子的界限以外,主要任務是對段落和整篇文章進行理解和分析。
知識圖譜
表示知識,描述客觀世界的概念、實體、事件等之間關係的一種表示形式。知識圖譜在表現形式上與語義網絡比較相似,不一樣的是,語義網絡側重於表示概念與概念之間的關係,而知識圖譜更側重於表述實體之間的關係。如今的知識網絡被用來泛指大規模的知識庫。
除此以外,天然語言的基礎研究還涉及詞義消歧、指代消解、命名實體識別等方面的研究。
機器翻譯
指運用機器,經過特定的計算機程序將一種書寫形式或聲音形式的天然語言,翻譯成另外一種書寫形式或聲音形式的天然語言。按照媒介能夠將機器翻譯分爲文本翻譯、語音翻譯、圖像翻譯以及視頻和 VR 翻譯等。
信息檢索
從相關文檔集合中查找用戶所需信息的過程。先將信息按必定的方式組織和存儲起來,而後根據用戶的需求從已經存儲的文檔集合當中找出相關的信息,這是廣義的信息檢索。信息檢索包括「存」與「取」兩個方面,對信息進行收集、標引、描述、組織,進行有 14 序的存放是「存」。按照某種查詢機制從有序存放的信息集合(數據庫)中找出用戶所需信息或獲取其線索的過程是「取」。搜索引擎能夠當作是一種特殊且重要的信息檢索系統。
情感分析
又稱意見挖掘,是指經過計算技術對文本的主客觀性、觀點、情緒、極性的挖掘和分析,對文本的情感傾向作出分類判斷。情感分析是天然語言理解領域的重要分支,涉及統計學、語言學、心理學、人工智能等領域的理論與方法。情感分析在電商評價、互聯網輿情分析、選舉預測等地方發揮重要做用。
信息抽取
主要是指從文本中抽取出特定的事實信息。與之關係密切的是信息檢索,信息檢索主要是要從大量的文檔中找到用戶所須要的文檔,而信息抽取是獲取用戶感興趣或所須要的事實信息,這就須要對文本有深刻的理解和分析。信息檢索的結果能夠做爲信息抽取的範圍,提升效率,信息抽取用於信息檢索能夠提升檢索質量,更好地知足用戶的需求。
下面列舉的是天然語言處理方向研究較好的一些機構。
國外: google、微軟亞洲研究院、Facebook
國內:百度、阿里、騰訊、京東、科大訊飛
從國家來看,美國是天然語言處理研究學者彙集 最多的國家,英國、德國、加拿大和意大利緊隨其後;從地區來看,美國東部是天然語言處理人才的集中地,而西歐、美國西部等其餘先進地區也吸引了大量天然語言處理的研究者。