大牛帶你讀論文|天然語言處理

【在千呼萬喚下,首期微軟亞洲研究院官方微信羣分享活動正式啓動啦!11月3日,微軟亞洲研究院首席研究員神祕加盟,從專家視角爲咱們直播#21世紀的計算大會#。點擊此處瞭解更多信息!】web


【編者按】閱讀和瀏覽論文,多是微軟亞洲研究院研究員天天都要作的事情。咱們會不按期邀請研究員分享他們近期閱讀的論文。本期由專一天然語言處理技術的崔磊研究員介紹他在ACL 2016大會上留意的五篇論文,這些論文涉及機器學習、深度神經網絡與天然語言處理技術,也是微軟亞洲研究院的研究前沿方向。算法

ACL大會的全稱是國際計算機語言學大會,屬於計算機語言學和天然語言處理領域的頂尖會議。ACL 2016大會於今年8月在德國舉行,微軟有20多位研究員參加,錯過了前期報道的同窗請點擊《計算語言學思想碰撞的浪潮:ACL 2016》。微信

第一篇是UC San Diego和MIT的語言學方面的研究工做,題目是「FindingNon-Arbitrary Form-Meaning Systematicity Using String-Metric Learning forKernel Regression」,這篇文章是2016年ACL會議的最佳論文,主要探討了天然語言中「符號任意性」(arbitrariness of the sign)的問題。網絡

所謂「符號任意性」,指的是文字的字面形式與其含義無關。舉一個簡單的例子:上學的時候你們都背英文單詞,一種直覺認爲單詞拼寫類似的時候,含義每每有必定關聯,以「gl」開頭的單詞不少於視覺相關,好比「glow, glint, glaze, gleam」。近年的主流語言學研究對於「符號任意性」有兩種不一樣的見解,一種認爲行爲和語料庫研究認爲字面形式和其含義的關聯只存在於有限詞表中,一種認爲字面形式和其含義的關聯普遍存在於所有詞表中。這篇論文的主要貢獻在於,做者利用一種統計的核迴歸方法(kernelregression)來判斷語言中的字面語義關聯,經過字面形式的關係能夠推斷出詞彙之間的分佈語義(Distributional Semantics)關係。研究結果代表,英文詞彙的字面語義關聯遠比咱們一般認爲的要普遍,並且這種關聯每每體如今局部的字面形式。文章的實驗設置很清晰,並不複雜,有興趣的同窗能夠自行實現做者的方法。框架

第二篇是Universityof Cambridge對話系統方面的研究工做,題目是「On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems」,這篇文章是2016年ACL會議的最佳學生論文,主要探討了對話系統中的強化學習(Deep Reinforcement Learning)問題。強化學習是近年來人們探討和研究很熱的一個方向,著名的阿爾法圍棋算法(AlphaGo)即是採用了強化學習算法,使得程序之間能夠相互博弈以提升自身的能力。在強化學習的研究中,如何定義和學習獎勵機制(reward)是十分重要的,然而,傳統的用戶反饋的方法開銷很大,在實用系統中沒法承受。文章提出一種在線學習的框架,首先經過循環神經網絡生成對話表示,進而利用基於高斯過程的主動學習機制大大下降了人工標註的代價。University of Cambridge這個研究組在對話系統方面有着長期深刻的研究工做,建議感興趣的同窗能夠多關注這方面的工做。
機器學習

第三篇來自Stanford University機器閱讀理解方面的研究工做,題目是「A Thorough Examination ofthe CNN/Daily Mail Reading Comprehension Task」。說到「閱讀理解」,顧名思義,就是給定一篇文章或者一段文字,人們在閱讀以後回答與文字相關的問題,這項任務在英文考試中常常出現。機器閱讀理解指的是讓機器模擬人來完成這項任務,與其餘機器學習任務相比,機器閱讀理解目前遇到的最大問題是缺少高質量的人工標註數據。2015年,Hermann等人經過挖掘CNN和DailyMail網站的新聞數據製做了目前較大的一個機器閱讀理解數據集。文章基於這個數據集,提出了兩種基於分類的方法,分別是傳統的分類器LambdaMART和基於神經網絡的分類器,其中基於神經網絡分類器的結果在兩個數據集的分類準確率在73.6%和76.6%,多個模型的集成進一步將準確率提高至77.6%和79.2%。閱讀理解任務是目前問答研究很是火的一個領域,近來Stanford University也發佈了SQuAD數據集(The Stanford Question Answering Dataset),人工標註了500多篇文檔,總結出100,000多個問題答案對,爲閱讀理解的研究提供了更多的數據,也有愈來愈多的研究人員開始從事機器閱讀理解方面的工做。性能

第四篇工做關於華爲諾亞方舟實驗室神經網絡機器翻譯方面的研究工做,題目是「Modeling Coverage for Neural Machine Translation」。多年來,機器翻譯研究的熱點集中在以IBM 模型演化而來的統計機器翻譯,隨着數據規模的增加,在過去的十多年中,統計機器翻譯的性能取得了大幅度的提高,各類模型算法也層出不窮。近年來,神經網絡深度學習的發展逐漸成熟,在語音圖像文本的處理中大行其道,也取得了長足的進步。相比於傳統的統計機器翻譯,神經網絡機器翻譯無需考慮兩種語言的詞彙對齊,同時將翻譯模型、語言模型、調序模型等統一整合至基於循環神經網絡的Encoder-Decoder框架當中,直接端到端(end-to-end)生成翻譯結果,作到了語言無關,優點明顯。目前,雖然神經網絡機器翻譯系統的水平已經超越了傳通通計機器翻譯,但其自己仍然存在一些問題須要解決,例如過分翻譯(over-translation)和翻譯不足 (under-translation)的問題。這是因爲目前的神經網絡機器翻譯系統採用了基於注意力(attention)機制的循環神經網絡,在翻譯的過程當中歷史的注意力信息每每被忽略。文章的主要貢獻在於設計了一種循環神經網絡的注意力覆蓋向量(coveragevector),用於記錄翻譯過程當中的歷史信息,幫助翻譯過程根據源語言更好的生成翻譯結果。實驗代表,這種添加了覆蓋向量的模型在翻譯質量上超越了傳統的神經機器翻譯方法。學習

第五篇是加拿大蒙特利爾大學和IBM T. J Watson Research深度學習方面的研究,題目是"Pointing the Unknown Words」。熟悉深度學習在天然語言處理領域應用的人都知道,當前因爲深度學習計算的時間與空間,以及天然語言處理自己的特性,大多數的天然語言處理的模型都面臨着未登陸詞(OOV)的問題。這篇文章針對Sequence-to-Sequence生成中未登陸詞的問題,提出一種基於注意力機制(attention)的神經網絡結構,用以解決深度學習中低頻詞的處理。具體來說,做者利用兩個Softmax層預測語言模型中的下一個詞,其中一個Softmax層用於預測Seq2Seq源端詞的位置,另外一個Softmax層用於預測Seq2Seq目標端候選名單中的詞。在神經網絡計算的每個時刻,經過將上下文信息(content)輸入另外一個多層感知機網絡(MLP)來決定具體使用哪一個Softmax來產生結果。做者在英法機器翻譯和自動摘要兩個任務上測試了該方法,模型的性能都獲得了穩定的提高。近來人們對於處理深度學習中未登陸詞的問題十分關注,在ACL2016會議中,還有多篇文章涉及到這個話題,例如華爲諾亞方舟實驗室的「Incorporating Copying Mechanism in Sequence-to-Sequence Learning」和愛丁堡大學的「Neural Summarization by Extracting Sentences and Words」,感興趣的同窗能夠關注一下。測試

最後一篇文章來自微軟亞洲研究院自動聊天機器人方面的研究,題目是「DocChat: An Information Retrieval Approach forChatbot Engines Using Unstructured Documents」。提到聊天機器人,你們可能會想到很是火的一款聊天機器人產品「微軟小冰」,「微軟小冰」經過在大數據、天然語義分析、機器學習和深度神經網絡方面的技術積累,經過理解對話的語境與語義,實現了超越簡單人機問答的天然交互。目前自動聊天機器人的訓練數據絕大多數來自互聯網社區和社交網絡中的公開數據(問題答案或者聊天回覆),雖然規模很大,可是形式較爲單一。文章的主要貢獻在於經過挖掘分析大規模非結構化文檔,利用文檔中的內容與用戶進行聊天交互,這樣一來大大突破了傳統聊天機器人可利用的數據邊界,極大地豐富了聊天內容庫。做者經過抽取不一樣粒度的特徵用以表示用戶所說的話與機器人回覆之間的相關性,同時利用機器學習中的經典算法排序學習(Learningto Rank)對不一樣特徵予以整合。實驗結果代表,這種方法在英文和中文的測試中都表現出很好的效果,能夠與傳統自動聊天機器人進行有機結合,提供更好地聊天回覆。
大數據

原文連接

Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric Learning for Kernel Regression:

http://www.cogsci.ucsd.edu/~bkbergen/papers/smlkr_final.pdf

On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems:

 https://arxiv.org/abs/1605.07669

A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task:

https://arxiv.org/abs/1606.02858

Modeling Coverage for Neural Machine Translation:

https://arxiv.org/abs/1601.04811

Pointing the Unknown Words: 

https://arxiv.org/abs/1603.08148

DocChat: An Information Retrieval Approach for Chatbot Engines Using Unstructured Documents: 

http://aclweb.org/anthology/P16-1049


做者簡介

相關文章
相關標籤/搜索