目標導向的視覺對話是「視覺-語言」交叉領域中一個較新的任務,它要求機器能經過多輪對話完成視覺相關的特定目標。該任務兼具研究意義與應用價值。日前,北京郵電大學王小捷教授團隊與美團AI平臺NLP中心團隊合做,在目標導向的視覺對話任務上的研究論文《Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue-commentCZ》被國際多媒體領域頂級會議ACMMM 2020錄用。git
該論文分享了他們在目標導向視覺對話中的最新進展,即提出了一種響應驅動的視覺狀態估計器(Answer-Driven Visual State Estimator,ADVSE)用於融合視覺對話中的對話歷史信息和圖片信息,其中的聚焦注意力機制(Answer-Driven Focusing Attention,ADFA)能有效強化響應信息,條件視覺信息融合機制(Conditional Visual Information Fusion,CVIF)用於自適應選擇全局和差別信息。該估計器不只能夠用於生成問題,還能夠用於回答問題。在視覺對話的國際公開數據集GuessWhat?!上的實驗結果代表,該模型在問題生成和回答上都取得了當前的領先水平。github
背景
一個好的視覺對話模型不只須要理解來自視覺場景、天然語言對話兩種模態的信息,還應遵循某種合理的策略,以儘快地實現目標。同時,目標導向的視覺對話任務具備較豐富的應用場景。例如智能助理、交互式拾取機器人,經過天然語言篩查大批量視覺媒體信息等。算法
研究現狀及分析
爲了進行目標導向的和視覺內容一致的對話,AI智能體應該可以學習到視覺信息敏感的多模態對話表示以及對話策略。對話策略學習的相關工做有不少,如Strub等人[1]首先提出使用強化學習來探索對話策略,隨後的工做則着重於獎勵設計[2,3]或動做選擇[4,5]。可是,它們中的大多數採用了一種簡單的方式來表示多模態對話,分別編碼兩個模態信息,即由RNN編碼的語言特徵和由預訓練CNN編碼的視覺特徵,並將它們拼接起來。微信
好的多模態對話表示是策略學習的基石。爲了改進多模態對話的表示,研究者們提出了各類注意機制[6,7,8],從而加強了多模態交互。儘管已有工做取得了許多進展,可是還存在一些重要問題。框架
- 在語言編碼方面,現有方法的語言編碼方式都不能對不一樣的響應(Answer)進行區分,Answer一般只是附在Question後面編碼,因爲Answer只是Yes或No一個單詞,而Question則包含更長的詞串,所以,Answer的做用很微弱。但實際上,Answer的回答很大程度決定了後續圖像關注區域的變化方向,也決定了對話的發展方向,回答是Yes和No會致使徹底不一樣的發展方向。例如圖1中經過對話尋找目標物體的示例,當第一個問題的答案「是花瓶嗎?」爲「是」,則發問者繼續關注花瓶,並詢問能夠最好地區分多個花瓶的特徵;當第三個問題的答案「部分爲紅色嗎?」爲「否」,則發問者再也不關注紅色的花瓶,而是詢問有關剩餘候選物體的問題。
- 在視覺以及融合方面的狀況也是相似,現有的視覺編碼方式或者採用靜態編碼在對話過程當中一直不變,直接和動態變化的語言編碼拼接,或者用QA對編碼引導對視覺內容的注意力機制。所以,也不能對不一樣的Answer進行有效區分。而如前所述,當Answer回答不一樣時,會致使圖像關注區域產生很是不一樣的變化,通常地,當回答爲「是」時,圖像會聚焦於當前對象,進一步關注其特色,當回答爲「否」時,可能須要再次關注圖像總體區域去尋找新的可能候選對象。
響應驅動的視覺狀態估計器
爲此,本文提出一個響應驅動的視覺狀態估計器,以下圖2所示,新框架中包含響應驅動的注意力更新(ADFA-ASU)以及視覺信息的條件融合機制(CVIF)分別解決上述兩個問題。ide
響應驅動的注意力更新首先採用門限函數極化當前輪次Question引導的注意力,隨後基於對該Question的不一樣Answer進行注意力反轉或保持,獲得當前Question-Answer對對話狀態的影響,並累積到對話狀態上,這種方式有效地強調了Answer對對話狀態的影響;CVIF在當前QA的指導下融合圖像的總體信息和當前候選對象的差別信息,從而得到估計的視覺狀態。函數
答案驅動的注意力更新(ADFA-ASU)
視覺信息的條件融合機制(CVIF)
響應驅動的視覺狀態估計器用於問題生成和回答
ADVSE是面向目標的視覺對話的通用框架。所以,咱們將其應用於GuessWhat ?!中的問題生成(QGen)和回答(Guesser)建模。咱們首先將ADVSE與經典的層級對話歷史編碼器結合起來以得到多模態對話表示,然後將多模態對話表示與解碼器聯合則可獲得基於ADVSE的問題生成模型;將多模態對話表示與分類器聯合則獲得基於ADVSE的回答模型。性能
在視覺對話的國際公開數據集GuessWhat?!上的實驗結果代表,該模型在問題生成和回答上都取得了當前的領先水平。咱們首先給出了ADVSE-QGen和ADVSE-Guesser與最新模型對比的實驗結果。學習
此外,咱們評測了聯合使用ADVSE-QGen和ADVSE-Guesser的性能。最後,咱們給出了模型的定性分析內容。咱們模型的代碼即將可從ADVSE-GuessWhat得到。ui
總結
本論文提出了一種響應驅動的視覺狀態估計器(ADVSE),以強調在目標導向的視覺對話中不一樣響應對視覺信息的重要影響。首先,咱們經過響應驅動的集中注意力(ADFA)捕獲響應對視覺注意力的影響,其中是保持仍是移動與問題相關的視覺注意力由每一個回合的不一樣響應決定。
此外,在視覺信息的條件融合機制(CVIF)中,咱們爲不一樣的QA狀態提供了兩種類型的視覺信息,而後依狀況地將它們融合,做爲視覺狀態的估計。將提出的ADVSE應用於Guesswhat?!中的問題生成任務和猜想任務,與這兩個任務的現有最新模型相比,咱們能夠得到更高的準確性和定性結果。後續,咱們還將進一步探討同時使用同源的ADVSE-QGen和ADVSE-Guesser的潛在改進。
參考文獻
- [1] FlorianStrub,HarmdeVries,JérémieMary,BilalPiot,AaronC.Courville,and Olivier Pietquin. 2017. End-to-end optimization of goal-driven and visually grounded dialogue systems. In Joint Conference on Artificial Intelligence.
- [2] Pushkar Shukla, Carlos Elmadjian, Richika Sharan, Vivek Kulkarni, Matthew Turk, and William Yang Wang. 2019. What Should I Ask? Using Conversationally Informative Rewards for Goal-oriented Visual Dialog.. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Association for ComputationalLinguistics,Florence,Italy,6442–6451. https://doi.org/10.18653/v1/P...
- [3] JunjieZhang,QiWu,ChunhuaShen,JianZhang,JianfengLu,andAntonvanden Hengel. 2018. Goal-Oriented Visual Question Generation via Intermediate Re- wards. In Proceedings of the European Conference on Computer Vision.
- [4] Ehsan Abbasnejad, Qi Wu, Iman Abbasnejad, Javen Shi, and Anton van den Hengel. 2018. An Active Information Seeking Model for Goal-oriented Vision- and-Language Tasks. CoRR abs/1812.06398 (2018). arXiv:1812.06398 http://arxiv.org/abs/1812.06398
- [5] EhsanAbbasnejad,QiWu,JavenShi,andAntonvandenHengel.2018.What’sto Know? Uncertainty as a Guide to Asking Goal-Oriented Questions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4150–4159.
- [6] Chaorui Deng, Qi Wu, Qingyao Wu, Fuyuan Hu, Fan Lyu, and Mingkui Tan. 2018. Visual Grounding via Accumulated Attention. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 7746–7755.
- [7] Tianhao Yang, Zheng-Jun Zha, and Hanwang Zhang. 2019. Making History Matter: History-Advantage Sequence Training for Visual Dialog. In Proceedings of the IEEE International Conference on Computer Vision. 2561–2569.
- [8] BohanZhuang,QiWu,ChunhuaShen,IanD.Reid,andAntonvandenHengel. 2018. Parallel Attention: A Unified Framework for Visual Object Discovery Through Dialogs and Queries. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4252–4261.
做者簡介
本文做者包括徐子彭、馮方向、王小捷、楊玉樹、江會星、王仲遠等等,他們來自北京郵電大學人工智能學院智能科學與技術中心與美團搜索與NLP中心團隊。
招聘信息
美團搜索與NLP部,長期招聘搜索、推薦、NLP算法工程師,座標北京/上海。歡迎感興趣的同窗發送簡歷至:tech@meituan.com(郵件註明:搜索與NLP部)
想閱讀更多技術文章,請關注美團技術團隊(meituantech)官方微信公衆號。