做者:京東AI研究院web
近些年,人工智能無疑是信息技術領域最熱門的技術之一。人工智能打敗世界圍棋冠軍、人工智能打敗遊戲高手、人工智能醫生看病會診……不斷進步的科技正推進着人工智能從一個沒法實現的幻想,不斷突破人類的想象,完成一個又一個挑戰。算法
2018年,在全球科幻電影節( Sci-Fi London Film Festival)上的一項名爲「48小時內電影創做挑戰」(SFL 48 Hour Film Challenge)的活動中,來自紐約的導演Oscar Sharp和他在紐約大學AI研究院的同事Ross Goodwin利用人工智能(這套人工智能稱本身爲Benjamin)創做出了一個劇本,並在48小時內將這個劇本拍攝出來了。雖然電影只有短短 9 分鐘,但這也是世界上第一部由AI創做並拍攝出來的電影,這在之前是科幻小說都不敢寫的故事。框架
在此以後,人工智能在電影業中不斷獲得更多落地應用。2019年,迪士尼研究所和羅格斯大學的科學家共同發表了關於AI文本生成動畫模型的論文。研究人員表示,這種算法只要在輸入的文本中描述某些活動便可,不須要註釋數據和進行大量訓練就能產生動畫。機器學習
如今,使用機器編寫劇本的想法正在受到如Netflix、Hulu、好萊塢等世界級影視科技公司的青睞。機器學習——使用算法分析大量數據以給出決策建議——正在滲透到電影業的各個角落。ide
而在使用人工智能進行影視劇本創做中,NLP 領域的天然語言生成技術是其中的關鍵技術之一。性能
但天然語言生成技術的應用場景和研究意義遠不止於影視劇本創做。在電商場景下,可用於營銷內容生成以及面向複雜問題回答與人機交互的自動文本生成;融媒體場景下,結合文本與語音合成技術可應用於新聞自動播報、直播文字、多語言/跨語言自動文摘;學術研究場景中,學術文獻、綜述生成、內容反饋、自動做文等都是自動文摘的落地應用場景。學習
詳情可點擊查看:優化
➡️京東商城背後AI技術揭祕(一)——基於關鍵詞自動生成摘要動畫
➡️京東商城背後AI技術揭祕(二)——基於商品要素的多模態商品摘要ui
NLP(Natural Language Processing)領域中有一個全球最高級別的學術會議——ACL 會議(Annual Meeting of the Association for Computational Linguistics),它由計算語言協會在 1962 年舉辦第一屆,其後每一年一屆,致力於推進天然語言處理相關研究的發展和國際學術交流。
ACL 議題涉及對話(Dialogue)、篇章(Discourse)、評測( Eval)、信息抽取(IE)、信息檢索(IR)、語言生成(Language Generation)、語言資源(Language Resource)、機器翻譯(Machine Translation)、多模態(Multimodal)、音韻學/ 形態學( Phonology / Morphology)、自動問答(Queston Answering)、語義(Semantics)、情感(Sentiment)、語音(Speech)、、文摘(Summarisation)、句法(Syntax)等多個方面。
近日,ACL 2020 公佈了今年大會的論文錄用結果。根據官方公佈的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下了全部 ACL 旗下會議新高。ACL 除了在國際 AI 學界具備頂級影響力外,其審稿規範和審稿質量,也是當今 AI 領域國際頂級會議中公認的翹楚,論文被錄取的難度十分高。以 2019 ACL 爲例,論文錄取率僅爲 22.7% 。所以,研究論文可以被 ACL 錄用,不只意味着研究成果獲得了國際學術界的承認,也證實了研究自己在實驗嚴謹性、思路創新性等方面的實力。
京東 AI 研究院專一於持續性的算法創新,80% 的研究都由京東實際的業務場景需求爲驅動,聚焦 NLP語音、計算機視覺、機器學習(包括深度學習和強化學習)等領域。在ACL 2020 中,京東 AI 研究院提交論文通過重重審覈,最終被大會收錄。
今天,咱們就將爲你們解讀其中的一篇_:Self-Attention Guided Copy Mechanism for Abstractive Summarization_
論文對現有自動文摘的研究方法進行了優化,使經過該新模型生成的摘要內容更加精確。
自動文本摘要(簡稱「自動文摘」)是天然語言處理領域中的一個傳統任務,其目的是爲輸入文本生成一段簡化文本。經常使用的自動文摘方法包括抽取式自動文摘(Extractive Summarization)和生成式自動文摘(Abstractive Summarization)。抽取式自動文摘方法抽取輸入文本中的原始句子組成摘要;生成式自動文摘方法利用天然語言生成技術生成摘要。
自動文摘模型的關鍵是準確識別出輸入文本中的重要信息,並輸出涵蓋這些信息的流暢文本。抽取式自動文摘方法能夠顯式的對輸入文本的每一個句子的重要性進行建模,可是輸出的摘要是經過拼接句子構成的,句間的流暢性沒法獲得保證。生成式自動文摘方法一般能夠輸出較爲流暢的摘要,可是有時沒法徹底準確捕捉到輸入文本中的重要的信息。
本文所介紹的是自動文摘模型提出了一種自注意力(Self-Attention)指導的複製機制,該方法融合了抽取式自動文摘方法和生成式自動文摘方法,在多個文本摘要數據集上取得了比對比模型更好的性能。
咱們首先介紹一下一些相關背景知識,包括自注意力機制,複製機制和抽取式自動文摘方法TextRank算法。
《_Attention is all you need_》提出了基於自注意力機制的Transformer框架,在機器翻譯任務上超過了當時其餘的模型。簡單來講,自注意力機制將文本中的詞兩兩計算類似度,而後對這些類似度進行歸一化獲得權重矩陣,最後將這些權重和相應的詞進行加權求和獲得下層的隱層表達。
複製機制是自動文摘模型中的一個經常使用機制。傳統的文本生成在計算生成每一個詞的機率時,全部的詞被限制在一個固定大小的詞表中,即生成的詞必須來自於這個固定大小的詞表。複製機制除了會在這個固定大小的詞表中生成某個詞,還會選擇性的在輸入文本中選擇一個詞,這個詞不受詞表限制。複製機制實際上和人類在作摘要時的邏輯相吻合,即輸入文本中的某些詞,尤爲是那些關鍵詞,組成了這個文本的主幹。咱們只須要將這些關鍵詞從輸入中「複製」到輸出中,而後再作一個適當的加工,使輸出的摘要更加天然。複製機制的動機就是自動識別出這些關鍵詞,而後將其「複製」到輸出摘要中。TextRank算法一種基於圖模型的經典抽取式自動文摘方法,其基本思想來源於谷歌的 PageRank算法。TextRank算法一般會把輸入文本分割成若干基本單元並創建圖模型, 利用基本單元間關係組成的鄰接矩陣進行隨機遊走,對文本基本單元進行排序。
上文提到,自動文摘模型但願經過複製機制將輸入文本中的重要詞複製到輸出中,但因爲使用注意力權重做爲複製機率,並不能顯式地識別出哪些詞是重要的詞。咱們須要找到一個合適的方式顯式地爲輸入文本中的詞的重要性進行打分,進而指導模型的複製機制,改善複製的效果。TextRank算法利用鄰接矩陣計算輸入文本中每一個詞的重要性得分。
咱們注意到,Transformer模型的自注意力機制提供了輸入文本中的詞兩兩之間的權重,該權重矩陣能夠做爲TextRank算法的鄰接矩陣。基於這個鄰接矩陣,經過隨機遊走,咱們能夠獲得輸入文本中的詞的重要性得分 ,進而指導複製機率,公式以下:
咱們提出的模型在文本摘要數據集CNN/DailyMail和Gigaword上取得了比對比模型更好的性能。
CNN/DailyMail數據集實驗結果對比
Gigaword數據集實驗結果對比
在以前的論文解讀專欄文章中,咱們爲你們詳細介紹了京東商城是如何在現有基礎上進行更進一步的技術探究與創新,從而有效提高電商的營銷轉化率的。
詳情可點擊【閱讀】查看更多相關內容
京 東 AI 研 究 院
京東AI研究院專一於持續性的算法創新,多數研究將由京東實際的業務場景需求爲驅動。
研究院的聚焦領域爲:計算機視覺、天然語言理解、對話、語音、語義、機器學習等實驗室,已逐步在北京、南京、成都、硅谷等全球各地設立職場。