京東雲與AI 10 篇論文被AAAI 2020 收錄，京東科技實力亮相世界舞臺

時間 2020-03-08

原文原文鏈接

美國時間2月7-12日，AAAI 2020大會在紐約正式拉開序幕，AAAI做爲全球人工智能領域的頂級學術會議，每一年評審並收錄來自全球最頂尖的學術論文，這些學術研究引領着技術的趨勢和將來。京東雲與AI在本次大會上有10篇論文被AAAI收錄，涉及天然語言處理、計算機視覺、機器學習等領域，充分展示了京東用技術驅動公司成長的發展模式以及技術實力，技術創新和應用落地也成爲這些論文最吸引行業關注的亮點。算法

本屆會議共收到的有效論文投稿超過8800篇，其中7737 篇論文進入評審環節，最終錄取數量爲1591篇，錄取率爲20.6%。京東雲與AI共有10篇論文入選AAAI 2020，研究領域涵蓋人臉識別、人臉解析、機器閱讀理解、文本生成、對抗樣本與模型魯棒性、智慧城市等前沿的技術研究領域，這些能力目前已在市政安防、實體零售、智能客服等業務場景下規模化落地，將來京東雲與AI做爲值得信賴的智能技術提供者，會持續進行技術與業務融合的探索，這些落地的技術能力也將迎來更加廣闊的應用前景。數據庫

如下是京東雲與AI這次入選10篇論文：網絡

對抗樣本與模型魯棒性研究

1. 基於Frank-Wolfe框架的高效對抗攻擊算法A Frank-Wolfe Framework for Efficient and Effective Adversarial Attacks框架

論文連接：https://arxiv.org/pdf/1811.10828.pdf；機器學習

根據模型攻擊者可獲取的信息量來區分，對抗樣本攻擊可分爲白盒與黑盒兩種攻擊形式。雖然基於優化的攻擊算法如PGD等能夠在白盒攻擊狀況下得到較高的攻擊成功率，但它們生成的對抗樣本每每有着較高的失真度。此外，它們相應的黑盒攻擊算法一般查詢效率較差，須要對被攻擊的黑盒模型訪問很是屢次才能實現攻擊，從而大幅限制了它們的實用性。針對這一問題，京東、弗吉尼亞大學和加州大學洛杉磯分校合做提出了一種基於Frank-Wolfe框架的高效對抗攻擊算法，可靈活運用於白盒和黑盒對抗樣本攻擊。ide

做者從理論上證實了所提的攻擊算法具備的收斂速率，並在ImageNet和MNIST數據集上驗證了所提出算法的性能。對比全部參評的白盒與黑盒攻擊基準算法，本文提出的算法在攻擊成功率，攻擊時間和查詢效率上均顯著佔優。函數

2. 經過對抗樣本評估序列到序列模型魯棒性Seq2Sick: Evaluating the Robustness of Sequence-to-Sequence Models with Adversarial Examples工具

論文連接：https://arxiv.org/pdf/1803.01128.pdf；佈局

利用對抗樣本攻擊的難易度來評估深度神經網絡的魯棒性已成爲業界經常使用的方法之一。然而，大多數現有的對抗攻擊算法都集中在基於卷積神經網絡的圖像分類問題上，由於它的輸入空間連續且輸出空間有限，便於實現對抗樣本攻擊。在本文中，來自京東、加州大學洛杉磯分校和IBM研究院的研究者們探索了一個更加困難的問題，即如何攻擊基於循環神經網絡的序列到序列（Sequence to Sequence）模型。這一模型的輸入是離散的文本字符串，而輸出的可能取值則幾乎是無窮的，所以難以設計對抗攻擊方案，在本文以前也未被成功攻破過。爲了解決離散輸入空間帶來的挑戰，研究者們提出告終合group lasso和梯度正則化的投影梯度方法。針對近乎無限輸出空間帶來的問題，他們也設計了一些全新的損失函數來實現兩種新的攻擊方式：(1) 非重疊攻擊，即保證模型被攻擊後的輸出語句與正常狀況下的輸出語句不存在任何重合，（2）目標關鍵詞攻擊，即給定任意一組關鍵詞，保證模型被攻擊後的輸出語句包含這些關鍵詞。性能

最終，研究者們將算法應用於序列到序列模型經常使用的兩大任務機器翻譯和文本摘要中，發現經過對輸入文本作輕微的改動，便可以顯著改變序列到序列模型的輸出，成功實現了對抗樣本攻擊。同時，研究者們也指出，雖然攻擊取得了成功，但與基於卷積神經網絡的分類模型相比，序列到序列模型的對抗攻擊難度更大，且對抗樣本更容易被發現，所以從對抗攻擊的角度進行衡量，序列到序列模型是一種魯棒性更優的模型。

機器閱讀理解

3.多跳多文檔閱讀理解研究

Select, Answer and Explain: Interpretable Multi-hop Reading Comprehension over Multiple Documents

論文連接：https://arxiv.org/pdf/1911.00484v2.pdf；

可解釋的對多文檔多跳閱讀理解（RC）是一個具備挑戰性的問題，由於它須要對多個信息源進行推理並經過提供支持證據來解釋答案預測。《Select, Answer and Explain: Interpretable Multi-hop Reading Comprehension over Multiple Documents》論文中提出了一種可解釋的多跳多文檔閱讀理解的方法，經過設計一個有效的文檔篩選模塊和基於圖神經網絡的推理模塊，針對給定問題能夠同時準確的找出問題的答案以及支持答案的證據。

多跳多文檔閱讀理解方法示意圖

文本生成

4.基於要素感知的多模態電商商品摘要Aspect-Aware Multimodal Summarization for Chinese E-Commerce Products

論文連接：http://box.jd.com/sharedInfo/2926429040ECC7D3；

《Aspect-Aware Multimodal Summarization for Chinese E-Commerce Products》論文中提出了一個基於商品要素的多模態商品信息自動摘要系統，其能夠根據商品的文本描述和商品圖片自動生成商品營銷短文。商品的外觀決定了用戶對該商品的第一印象，商品的功能屬性最終決定了用戶的購買行爲，論文提出的多模態商品信息自動摘要系統能夠有效的整合商品的外觀和功能信息，自動捕捉到該商品的特點賣點，併爲其生成一段簡短的營銷短文。不一樣的用戶關注的商品要素每每是不一樣的，好比冰箱的「能耗」和」容量」，手機的「內存」和「屏幕」。系統以商品要素爲切入點，挖掘商品最有賣點的商品要素，並從商品要素維度控制輸出文本的信息冗餘度、可讀性和對輸入信息的忠實度，最終生成一段簡潔凝練、賣點突出、流暢、合規的商品營銷短文，以期待引發潛在購買者的共鳴。

模型框架圖

5.基於關鍵詞指導的生成式句子摘要Keywords-Guided Abstractive Sentence Summarization

論文連接：http://box.jd.com/sharedInfo/B2234BB08E365EEC；

《Keywords-Guided Abstractive Sentence Summarization》論文中提出了一種文本摘要的新方法，即利用輸入文本的關鍵詞信息提升了文本摘要模型的質量。論文模擬了人類生成摘要的過程：當人類爲某一段文本生成摘要時，首先會對該文本進行閱讀，並識別出裏面的關鍵詞，進而經過創做加工，將這些關鍵詞以流暢的語言表達出來。另外，文本摘要和文本關鍵詞抽取在本質上是相通的，即都是在輸入文本中提取關鍵信息，僅僅是輸出的形式有所差別。基於上述思考，論文提出一個多任務學習框架，經過一個共享的編碼器，互相強化文本摘要和關鍵詞抽取任務。在解碼器生成摘要時，利用關鍵詞的信息和原始輸入文本進行交互，經過雙重注意力和雙重拷貝機制，在關鍵詞的指導下，爲輸入文本生成摘要。

共選擇編碼模型的框架

6.基於多模態信息指導的多模態摘要Multimodal Summarization with Guidance of Multimodal Reference

論文連接：http://box.jd.com/sharedInfo/36929195FF05B01F；

論文《Multimodal Summarization with Guidance of Multimodal Reference》提出了一種基於多模態信息監督的多模態自動摘要模型，該模型以文本和圖片做爲輸入，生成圖文並茂的摘要。傳統的多模態自動摘要模型在訓練過程當中，每每以文本參考摘要的極大似然損失做爲目標函數，而後利用注意力機制來挑選與文本相對應的圖片。這種作法容易帶來模態誤差的問題，即模型會傾向於優化文本生成的質量而忽視了圖片挑選的質量。論文提出的模型優化了多模態摘要模型的目標函數，即在文本參考摘要的損失函數的基礎上增長了圖片參考摘要的損失函數。實驗發現，在引入了多模態信息監督訓練後，多模態自動摘要模型的圖片挑選質量獲得了顯著的改善，文本生成質量也有所改進，從而能夠生成更高質量的圖文摘要。

多模態基準指導的多模態自動文摘框架圖

7.文本到SQL的生成研究

Zero-shot Text-to-SQL Learning with Auxiliary Task

論文連接：https://arxiv.org/pdf/1908.11052.pdf；

近年來，在Text-to-SQL任務中使用神經Seq2Seq模型取得了巨大的成功。可是，不多有研究關注這些模型如何推廣到實際不可見數據中。論文《Zero-shot Text-to-SQL Learning with Auxiliary Task》經過設計一個有效的輔助任務支持模型以及生成任務的正則化項，以增長模型的泛化能力。經過在大型文本到SQL數據集WikiSQL上實驗評估模型，與強大的基線粗到精模型相比，論文中打造的模型在整個數據集上的絕對精度比基線提升了3％以上。在WikiSQL的Zero-shot子集測試中，這一模型在基線上得到了5％的絕對準確度增益，清楚地證實了其卓越的通用性。

論文設計的模型示意圖

智慧城市研究

8.車站潛在客流的智能化預測Potential Passenger Flow Prediction: A Novel Study for Urban Transportation Development

論文連接：https://arxiv.org/pdf/1912.03440.pdf；

隨着城市人口的增多和城市化的不斷髮展，公共交通工具如地鐵正在發揮着愈來愈重要的做用。爲了讓地鐵可以發揮更大的做用，方便人們出行，須要精準預測每一個車站在將來的潛在客流量，從而爲地鐵站的選址和建設規模提供建議。針對這一問題，京東和悉尼科技大學的研究者們合做提出了一種多視圖局部相關性學習方法。其核心思想是利用自適應權重來了解目標區域及其局部區域之間的客流相關性，並經過嵌入一些領域知識到多視圖學習過程當中的方法來綜合提高對潛在客流的預測準確性。

潛在客流預測問題

模型流程圖

文中經過大量的實驗結果代表，相比於一些其餘預測算法，論文中提出的方法取得了顯著更優的預測準確性，能夠爲車站規劃和城市智能化建設提供更爲有力的保障。此外，文中所提的思路也對解決推薦系統中的冷啓動問題提供了必定的借鑑意義。

人臉識別

9.基於分錯特徵引導的損失函數

Mis-classified Vector Guided Softmax Loss for Face Recognition

論文連接：https://arxiv.org/pdf/1912.00833.pdf；

在人臉識別領域，各個場景下的應用對算法能力提出了更高的要求。人臉識別的規模已從原來的千人、萬人級增大到百萬人甚至千萬人。目前研究面臨的一大挑戰是在識別規模愈來愈大的場景下，如何在較低的誤識率的同時保持識別經過率。現有的人臉識別主流訓練算法主要歸類爲margin-based和mining-based兩大類，但都存在各自的方法上的缺陷。論文《Mis-classified Vector Guided Softmax Loss for Face Recognition》就針對如何讓模型學習獲得判別能力更優秀的人臉特徵，研究了一種新的人臉識別訓練算法，利用論文中提出的Mis-classified Vector Guided Softmax，可以同時優化現有方法存在的缺陷，而且幫助識別網絡在訓練過程當中得到更有針對性的難例強調，實現更據鑑別能力的模型訓練。論文的方法在目前多個公開人臉識別測試集上驗證了有效性，而且識別精度超過了現有的方法。

MV-Softmax特徵的幾何解釋

人臉解析

10.數據庫和一種邊緣感知的語義分割方法

A New Dataset and Boundary-Attention Semantic Segmentation for Face Parsing

論文連接：http://box.jd.com/sharedInfo/C1BEAD9CBDB50DA3；

近年來，人臉解析因其潛在的應用價值而受到了愈來愈多的關注。論文《A New Dataset and Boundary-Attention Semantic Segmentation for Face Parsing》從人臉解析領域存在的問題出發，在數據和算法兩個方面作出了貢獻。首先，論文提出了一種高效的像素級的人臉解析數據標註框架，該框架極大的下降了數據的標註難度，使他們在短期內構建了一個大規模的人臉解析數據集（LaPa）。該數據集包含了超過22,000張人臉圖片，且覆蓋了多種姿態、光照和表情變化。同時，本文還提出了一種有效的邊界注意力的語義分割方法（BASS），該方法從網絡結構和損失函數兩方面着手，充分利用圖像的邊界信息來提高語義分割精度，論文中設計了大量的實驗來驗證該方法的有效性，同時該方法取得了公開數據集Helen上SOTA的性能。

BASS的網絡結構示意圖

從這些前沿的研究成果不難看出，京東雲與AI正致力於將語音語義、計算機視覺、機器學習等技術在商品推薦、實體零售等領域持續落地應用，不只注重技術的先進性，更注重應用的可信賴。一直以來京東雲與AI致力於踐行可信賴的AI，「可信賴的AI」不是口號，也不只僅是價值觀層面。它有六個維度，公平、魯棒性、價值對齊、可複製、可解釋和負責任，這次入選論文中就包含着對「對抗樣本與模型魯棒性」的研究。一面是對技術的巨大挑戰，一面是人文精神，成爲最值得信賴的智能技術提供者正是京東雲與AI執着追求的社會責任與價值體現。

2019年8月，以NeuHub京東人工智能開放平臺爲載體，京東入選智能供應鏈國家人工智能開放平臺，依託這一平臺的技術積累，京東雲與AI在疫情期間快速推出應急資源信息發佈平臺，上線半個月時間即幫助湖北、武漢及其餘疫情波及地區供應醫療類、消毒類、生活類等各種救援物資超過2.6億件，供應藥品超過4億盒。其中包含各種口罩1.5億隻、護目鏡40.6萬個、防禦服鞋套283.72萬套等抗疫必需品；基於京東雲與AI領先的語音語義技術研發的智能疫情助理，已在北京、山東、安徽、江蘇、江西、四川等地的十多個行業、一千餘家組織和機構中快速落地，免費提供疫情諮詢服務，累計服務諮詢數量達數百萬條。切實讓民衆在疫情這一特殊時期感覺到技術帶來的溫暖和便利。

2019年，京東在雲、AI、IoT等技術領域和業務的探索完成了京東雲與AI在ABCDE技術戰略的佈局。這個戰略是咱們技術上深度融合，融合AI（人工智能）、Big Data（大數據）、Cloud（雲計算）、Devices（IoT）和Exploration（前沿探索）對外賦能，爲產業融合、科技創新，提供最堅實、最前沿、最可信賴的基礎設施和服務。

京東雲與AI總裁、京東集團技術委員會主席周伯文博士表示，京東技術戰略「ABCDE」的本質是促進技術融合帶來的價值疊加，經過前沿技術的研發，與行業Know-how進一步緊密結合，與合做夥伴一道共建良好的技術合做生態，並時刻要以用例爲中心，用京東雲與AI的技術積累對外賦能，解決真實場景問題，以最終實現面向社會創造更多價值。

如何進行技術和產業的融合一直是AI行業和企業關注的重點。2020年，京東雲與AI做爲「技術輸出」的先行者，他的身影還將在更多的全球頂級學術、科技大會上出現，並持續深耕技術與實體經濟的融合，探索技術的邊界與應用價值，推進產學研用的一體化建設。京東雲與AI也將繼續用紮實的技術積累對外賦能，與社會各界共同創造並見證雲智聯世界、產業互聯網蓬勃發展的新時代！

歡迎點擊「京東雲」瞭解更多精彩內容。

發佈於 22:47