天然語言處理--概述篇

轉載;原文地址:https://gitbook.cn/gitchat/geekbook/5b988b4eca9910654c0823f5/topic/5b9909c6ca9910654c0844degit

第一章 概述篇

1.1 天然語言處理概念

天然語言是指漢語、英語、法語等人們平常使用的語言,是天然而然的隨着人類社會發展演變而來的語言,而不是人造的語言,它是人類學習生活的重要工具。歸納說來,天然語言是指人類社會約定俗成的,區別於人工語言,如程序設計的語言。在整我的類歷史上以語言文字形式記載和流傳的知識佔到知識總量的80%以上。就計算機應用而言,據統計,用於數學計算的僅佔10%,用於過程控制的不到5%,其他85%左右都是用於語言文字的信息處理。web

處理包含理解、轉化、生成等過程。天然語言處理,是指用計算機對天然語言的形、音、義等信息進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操做和加工。實現人機間的信息交流,是人工智能界、計算機科學和語言學界所共同關注的重要問題。天然語言處理的具體表現形式包括機器翻譯、文本摘要、文本分類、文本校對、信息抽取、語音合成、語音識別等。能夠說,天然語言處理就是要計算機理解天然語言,天然語言處理機制涉及兩個流程,包括天然語言理解和天然語言生成。天然語言理解是指計算機可以理解天然語言文本的意義,天然語言生成則是指能以天然語言文原本表達給定的意圖。算法

enter image description here
圖 1 天然語言理解層次數據庫

天然語言的理解和分析是一個層次化的過程,許多語言學家把這一過程分爲五個層次,能夠更好地體現語言自己的構成,五個層次分別是語音分析、詞法分析、句法分析、語義分析和語用分析。瀏覽器

語音分析是要根據音位規則,從語音流中區分出一個個獨立的音素,再根據音位形態規則找出音節及其對應的詞素或詞。網絡

詞法分析的目的是找出詞彙的各個詞素,從中得到語言學的信息。架構

句法分析是對句子和短語的結構進行分析,目的是要找出詞、短語等的相互關係以及各自在句中的做用。機器學習

語義分析的目的是找出詞義、結構意義及其結合意義,從而肯定語言所表達的真正含義或概念。分佈式

語用分析則是研究語言所存在的外界環境對語言使用者所產生的影響。ide

在人工智能領域或者是語音信息處理領域中,學者們廣泛認爲採用圖靈試驗能夠判斷計算機是否理解了某種天然語言,具體的判別標準有如下幾條:

第一,問答,機器人能正確回答輸入文本中的有關問題;

第二,文摘生成,機器有能力生成輸入文本的摘要;

第三,釋義,機器能用不一樣的詞語和句型來複述其輸入的文本;

第四,翻譯,機器具備把一種語言翻譯成另外一種語言的能力。

1.2 天然語言處理髮展歷程

天然語言處理是包括了計算機科學、語言學心理認知學等一系列學科的一門交叉學科,這些學科性質不一樣但又彼此相互交叉。所以,梳理天然語言處理的發展歷程對於咱們更好的瞭解天然語言處理這一學科有着重要的意義。

enter image description here

1950年圖靈提出了著名的「圖靈測試」,這通常被認爲是天然語言處理思想的開端,20世紀50年代到70年代天然語言處理主要採用基於規則的方法,研究人員們認爲天然語言處理的過程和人類學習認知一門語言的過程是相似的,因此大量的研究員基於這個觀點來進行研究,這時的天然語言處理停留在理性主義思潮階段,以基於規則的方法爲表明。可是基於規則的方法具備不可避免的缺點,首先規則不可能覆蓋全部語句,其次這種方法對開發者的要求極高,開發者不只要精通計算機還要精通語言學,所以,這一階段雖然解決了一些簡單的問題,可是沒法從根本上將天然語言理解實用化。

70年代之後隨着互聯網的高速發展,豐富的語料庫成爲現實以及硬件不斷更新完善,天然語言處理思潮由理性主義向經驗主義過渡,基於統計的方法逐漸代替了基於規則的方法。賈里尼克和他領導的 IBM 華生實驗室是推進這一轉變的關鍵,他們採用基於統計的方法,將當時的語音識別率從70%提高到90%。在這一階段,天然語言處理基於數學模型和統計的方法取到了實質性的突破,從實驗室走向實際應用。

從2008年到如今,在不到十年的時間裏,在圖像識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來作 NLP 研究,由最初的詞向量到2013年 word2vec 將深度學習與天然語言處理的結合推向了高潮,並在機器翻譯、問答系統、閱讀理解等領域取得了必定成功。深度學習是一個多層的神經網絡,從輸入層開始通過逐層非線性的變化獲得輸出。從輸入到輸出作端到端的訓練。把輸入到輸出對的數據準備好,設計並訓練一個神經網絡,便可執行預想的任務。RNN 已是天然語言護理最經常使用的方法之一,GRU、LSTM 等模型相繼引起了一輪又一輪的熱潮。

1.3 我國天然語言處理現狀

20世紀90年代以來,中國天然語言處理研究進入了高速發展期,一系列系統開始了大規模的商品化進程,天然語言處理研究內容和應用領域上不斷創新。

目前天然語言處理的研究能夠分爲基礎性研究和應用性研究兩部分,語音和文本是兩類研究的重點。基礎性研究主要涉及語言學、數學、計算機學科等領域,相對應的技術有消除歧義、語法形式化等。應用性研究則主要集中在一些應用天然語言處理的領域,例如信息檢索、文本分類、機器翻譯等。因爲我國基礎理論即機器翻譯的研究起步較早,且基礎理論研究是任何應用的理論基礎,因此語法、句法、語義分析等基礎性研究從來是研究的重點,並且隨着互聯網網絡技術的發展,智能檢索類研究近年來也逐漸升溫。

從研究週期來看,除語言資源庫建設之外,天然語言處理技術的開發週期廣泛較短,基本爲1-3年,因爲涉及到天然語言文本的採集、存儲、檢索、統計等,語言資源庫的建設較爲困難,搭建週期較長,通常在10年左右,例如北京大學計算語言所完成的《現代漢語語法信息詞典》以及《人民日報》的標註語料庫,都經歷了10年左右的時間才研製成功。

天然語言處理的快速發展離不開國家的支持,這些支持包括各類扶持政策和資金資助。國家的資金資助包括國家天然科學基金、社會科學基金、863項目,973項目等,其中國家天然科學基金是國家投入資金最多,資助項目最多的一項。國家天然科學基金在基礎理論研究方面的投入較大,對中文的詞彙、巨大、篇章分析方面的研究都給予了資助,同時在技術方面也給予了大力的支持,例如機器翻譯、信息檢索、自動文摘等。除了國家的資金資助外,一些企業也進行了資助,可是企業資助項目通常集中在應用領域,針對性強,每每這些項目開發週期較短,更容易推向市場,實現由理論成果向產品的轉化。

1.4 天然語言處理業界發展

enter image description here

微軟亞洲研究院

微軟亞洲研究院1998年成立天然語言計算組,研究內容包括多國語言文本分析、機器翻譯、跨語言信息檢索和自動問答系統等。這些研究項目研發了一系列實用成果,如 IME、對聯遊戲、Bing 詞典、Bing 翻譯器、語音翻譯、搜索引擎等,爲微軟產品作出了重大的貢獻,而且在 NLP 頂級會議,例如 ACL,COLING 等會議上發表了許多論文。

2017年微軟在語音翻譯上全面採用了神經網絡機器翻譯,並新擴展了 Microsoft Translator Live Feature,能夠在演講和開會時,實時同步在手機端和桌面端,同時把講話者的話翻譯成多種語言。其中最重要的技術是對於源語言的編碼以及引進的語言知識,微軟將句法知識引入到神經網絡的編碼、解碼中,獲得了更好的翻譯。同時,微軟還表示,未來要將知識圖譜歸入神經網絡機器翻譯中規劃語言理解的過程。

在人機對話方面微軟也取得了極大的進展,如小娜如今已經擁有超過1.4億人地用戶,在數以十億計的設備上與人們進行交流,而且覆蓋了十幾種語言。還有聊天機器人小冰,正在試圖把各國語言的知識融合在一塊兒,實現一個開放語言自由聊天的過程,目前小冰實現了中文、日文和英文的覆蓋,有上億用戶。

enter image description here

Google

Google 是最先開始研究天然語言處理技術的團隊之一,做爲一個以搜索爲核心的公司,Google 對天然語言處理更爲重視。Google 擁有着海量數據,能夠搭建豐富龐大的數據庫,能夠爲其研究提供強大的數據支撐。Google 對天然語言處理的研究側重於應用規模、跨語言和跨領域的算法,其成果在 Google 的許多方面都被使用,提高了用戶在搜索、移動、應用、廣告、翻譯等方面的體驗。

機器翻譯方面,2016年 Google 發佈 GNMT 使用最早進的訓練技術,可以實現機器翻譯質量的最大提高,2017年宣佈其機器翻譯實現了徹底基於 attention 的 transformer 機器翻譯網絡架構,實現了新的最佳水平。

enter image description here

Google 的知識圖譜更是遙遙領先,例如自動挖掘新知識的準確程度,文本中命名實體的識別,純文本搜索詞條到在知識圖譜上的結構化搜索詞條的轉換,效果都領先於其餘公司,並且不少技術都實現了產品化。

語音識別方面,Google 一直致力於投資語音搜索技術和蘋果公司的 siri 競爭,2011年收購語言信息平臺 SayNow,把語音通訊、點對點對話、以及羣組通話和社交應用融合在一塊兒,2014年收購了 SR Tech Group 的多項語音識別相關專利,自2012年以來將神經網絡應用於這一領域,使語音識別錯誤率極大下降。

Facebook

Facebook 涉獵天然語言處理較晚,Facebook 在2013年收購了語音對語音翻譯(speech-to-speech translation)研發公司 Mobile Technologies,開始組建語言技術組。該團隊很快就投入對其第一個項目——翻譯工具——的研發,到2015年12月,Facebook 用的翻譯工具已經徹底轉變成自主開發的了。Facebook 語言技術小組不斷改進天然語言處理技術以改善用戶體驗,致力於機器翻譯、語音識別和會話理解。2016年,Facebook 首次將29層深度卷積神經網絡用於天然語言處理,2017年,Facebook 團隊使用全新的卷積神經網絡進行翻譯,以9倍於以往循環神經網絡的速度實現了目前最高的準確率。

2015年,Facebook 相繼創建語音識別和對話理解工具,開始了語音識別的研發之路。2016年 Facebook 開發了一個響應「Hey Oculus」的語音識別系統,而且在2018年初開發了 wav2letter,這是一個簡單高效的端到端自動語音識別(ASR)系統。Facebook 針對文本處理還開發了有效的方法和輕量級工具,這些都基於2016年發佈的 FastText 即預訓練單詞向量模型。

百度

百度天然語言處理部是百度最先成立的部門之一,研究涉及深度問答、閱讀理解、智能寫做、對話系統、機器翻譯、語義計算、語言分析、知識挖掘、個性化、反饋學習等。其中,百度天然語言處理在深度問答方向通過多年打磨,積累了問句理解、答案抽取、觀點分析與聚合等方面的一整套技術方案,目前已經在搜索、度祕等多個產品中實現應用。篇章理解經過篇章結構分析、主體分析、內容標籤、情感分析等關鍵技術實現對文本內容的理解,目前,篇章理解的關鍵技術已經在搜索、資訊流、糯米等產品中實現應用。百度翻譯目前支持全球28種語言,覆蓋756個翻譯方向,支持文本、語音、圖像等翻譯功能,並提供精準人工翻譯服務,知足不一樣場景下的翻譯需求,在多項翻譯技術取得重大突破,發佈了世界上首個線上神經網絡翻譯系統,並得到2015年度國家科技進步獎。

對百度天然語言處理部作出重要貢獻的人物不可不提王海峯、吳華等人。王海峯是百度現任副總裁,負責百度搜索引擎、手機百度、百度信息流、百度新聞、百度手機瀏覽器、百度翻譯、天然語言處理、語音搜索、圖像搜索、互聯網數據挖掘、知識圖譜、小度機器人等業務。是 ACL(Association for Computational Linguistics)50多年曆史上惟一出任過主席(President)的華人,也是迄今爲止最年輕的 ACL Fellow。同時,王海峯博士還在多個國際學術組織、國際會議、國際期刊兼任各種職務。吳華是百度天然語言處理部技術負責人,她所領導的團隊在天然語言處理和機器翻譯方面取得重大突破,同時她主持研發的多項 NLP 核心技術應用於搜索、Feed、DuerOS 等百度產品。吳華署名的專利達40餘件、重要學術論文50餘篇,在 IJCAI、ACL 等國際會議上屢次發聲。

阿里巴巴

阿里天然語言處理爲其產品服務,在電商平臺中構建知識圖譜實現智能導購,同時進行全網用戶興趣挖掘,在客服場景中也運用天然語言處理技術打造機器人客服,例如螞蟻金融智能小寶、淘寶賣家的輔助工具千牛插件等,同時進行語音識別以及後續分析。阿里的機器翻譯主要與其國家化電商的規劃相聯繫,能夠進行商品信息翻譯、廣告關鍵詞翻譯、買家採購需求以及即時通訊翻譯等,語種覆蓋中文、荷蘭語、希伯來語等語種,2017年初阿里正式上線了自主開發的神經網絡翻譯系統,進一步提高了其翻譯質量。

騰訊

AI Lab 是騰訊的人工智能實驗室,研究領域包括計算機視覺、語音識別、天然語言處理、機器學習等。其研發的騰訊文智天然語言處理基於並行計算、分佈式爬蟲系統,結合獨特的語義分析技術,可知足天然語言處理、轉碼、抽取、數據抓取等需求,同時,基於文智 API 還能夠實現搜索、推薦、輿情、挖掘等功能。在機器翻譯方面,2017年騰訊宣佈翻譯君上線「同聲傳譯」新功能,用戶邊說邊翻的需求獲得知足,語音識別+NMT 等技術的應用保證了邊說邊翻的速度與精準性。

京東

京東在人工智能的浪潮中也不甘落後。京東 AI 開放平臺基本上由模型定製化平臺和在線服務模塊構成,其中在線服務模塊包括計算機視覺、語音交互、天然語言處理和機器學習等。京東 AI 開放平臺計劃經過創建算法技術、應用場景、數據鏈間的鏈接,構建京東 AI 發展全價值鏈,實現 AI 能力平臺化。

按照京東的規劃,NeuHub 平臺將做爲普惠性開放平臺,不一樣角色都可找到適合本身的場景,例如用簡單代碼便可實現對圖像質量的分析評估。從業務上說,平臺能夠支撐科研人員、算法工程師不斷設計新的 AI 能力以知足用戶需求,並深耕電商、供應鏈、物流、金融、廣告等多個領域應用,探索試驗醫療、扶貧、政務、養老、教育、文化、體育等多領域應用,聚焦於新技術和行業趨勢研究,孵化行業最新落地項目。同時,京東人工智能研究院與南京大學、斯坦福大學等院校均有合做。

相關文章
相關標籤/搜索