論文標題:函數
VD-BERT: A Unified Vision and Dialog Transformer with BERT學習
論文做者:優化
Yue Wang, Shafiq Joty, Michael R. Lyu, Irwin King, Caiming Xiong, Steven C.H. Hoi編碼
論文連接:人工智能
https://arxiv.org/abs/2004.13278spa
視覺對話(Visual Dialog)指的是給定一張圖、它的標題和問題,咱們須要給出這個問題的答案,在VD中,對話每每有多輪,然後面的問題會和前面的對話相關。設計
本文提出統一的視覺對話VD-BERT模型,聯合編碼視覺信息和文本信息,既適用於判別式方法,也適用於生成式方法。VD-BERT在視覺對話數據集VisDial實現了單個模型和集成模型上的最佳效果。orm
視覺對話視頻
人類感知世界是「多模態」的而非「單模態」,學習知識也是在多模態的條件下進行的。對象
在全部的感知模態中,視覺和文本(語言),是其中最爲重要的兩類,而文本又是人類所獨有的能力。
經過將視覺感知到的內容轉換爲文本信息,是咱們瞭解世界的重要途徑。視覺對話任務就是在模擬這個過程。
給定一副圖片(或視頻等視覺內容)和一個問題,咱們能夠根據圖片內容去回答這個問題。
以後,咱們還能夠連續問若干問題,每一個問題都有回答,如此根據圖片和以前的對話進行下一輪對話,就是視覺對話,而找到每一個問題的答案,就是視覺對話的目標。
這能夠形式化爲:
其中是視覺信息,
是視覺信息的說明(如標題),
是第
輪的問題,
是第
輪的回答。
有兩種方法能夠找到,一是「判別式」——從給定的一些回答候選中選一個,二是「生成式」——直接生成回答。
從上式能夠看到,視覺對話實際上有四個部分:視覺信息V,對話歷史H,當前問題Q和當前回答A。
過去對視覺對話的研究大都採用注意力的方法,讓回答A去關注Q,V和H。然而,這種方法不能直接讓V和H之間創建聯繫,從而可能忽略過去的對話內容。
基於此,本文提出VD-BERT,用BERT去建模多個部分的聯繫,任意兩個部分之間就能夠經過自注意力完成交互,從而不丟失歷史對話信息,以下圖所示:
和BERT同樣,本文使用MLM和NSP兩個訓練任務去訓練VD-BERT,而後再經過Rank的方法微調VD-BERT,從而可使用一個模型同時完成判別式和生成式兩種生成方法。
總的來講,本文貢獻以下:
使用預訓練的BERT做爲視覺對話模型,並經過MLM和NSP的訓練獲得一個統一模型;
在VisDial數據集上實現了單個模型和集成模型兩者的最優結果;
能夠同時應用在判別式和生成式兩種生成方法上。
VD-BERT
VD-BERT的結構和流程十分簡單。下圖是VD-BERT的模型結構:
模型流程分爲幾步:獲得視覺表徵,獲得文本表徵,模型訓練,模型微調。
視覺表徵
本文使用Faster R-CNN獲得36個對象視覺表徵,用於編碼圖片的視覺信息,記爲。這些特徵將做爲BERT的輸入的一部分。
文本表徵
爲了編碼文本信息並讓其和視覺信息充分結合,本文按照BERT,把歷史對話以[EOT]爲分隔符拼接起來,做爲VD-BERT的文本部分,從而獲得,其中
是一個候選回答。
模型訓練
在獲得視覺輸入和文本輸入後,把這兩個再拼接起來做爲VD-BERT整個的輸入,獲得。注意到,咱們使用了預訓練的BERT去初始化VD-BERT,讓它獲得一些文本的先驗知識。
爲了訓練VD-BERT,本文提出兩個,也是BERT所提出的訓練任務:MLM和NSP。MLM和BERT一致,隨機掩碼文本部分15%的詞,讓模型去預測它。
NSP有所不一樣,VD-BERT所作的是,讓模型的[CLS]去預測當前的候選回答是否是真正的回答,即輸出一個0-1之間的機率。
對於判別式方法,只須要從候選回答集中採樣一些回答,而後再用NSP去預測是否正確便可;對於生成式方法,只須要一步一步預測便可,相似自迴歸模型。
模型微調
除了一個回答是不是正確答案以外(0或1),VisDial v1.0還爲每一個候選答案給出了相關性得分,用於評判每一個答案和正確答案之間的語義相關性,得分範圍爲0-1之間。因而,VD-BERT就可使用NSP在此基礎上進一步微調,而在推理的時候,只須要選擇得分最大的那個答案便可。
實驗
本文在視覺對話數據集VisDial v0.9和VisDial v1.0上實驗,使用BERT-base做爲VD-BERT骨幹,使用Recall@K、MRR、Mean Rank和NDCG做爲測評指標,其餘實驗細節詳見原文。
下表是在VisDial v1.0上的結果,能夠看到,VD-BERT在幾乎全部指標上都超越了以前的模型。
特別注意到,微調的VD-BERT(*)只在NDCG上表現更好,而在其餘指標上表現更差,這是由於NDCG衡量的回答的相關度,微調能夠提升其表現,可是反而下降了在其餘指標上的效果。
下表是在VisDial v0.9上的結果,能夠看到,不管是判別式方法仍是生成式方法,VD-BERT都能取得一致更好的效果。
下面來看看視覺信息和文本信息的交互狀況。從下圖能夠看到,文本和圖片中的對象是對應的。motorcycle關注了5和8(都是motorcycle),而he關注了4(人),helmet關注了4和8。
小結
本文提出VD-BERT,使用預訓練的BERT做爲統一的視覺對話模型,經過MLM和NSP的訓練,VD-BERT可以很好建模視覺信息和文本信息及其之間的相互聯繫。
VD-BERT簡單有效,不須要任何模型結構設計,也不須要多餘的損失函數優化,更不須要額外的標註數據,就能實現SOTA表現。
多模態是近些年發展很快的一個領域,由於和人類獲取信息的過程更接近,多模態可以更大地推進CV和NLP在現實的應用和落地。更好、更快的多模態模型是將來的一個持續性研究方向。
????
如今,在「知乎」也能找到咱們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱咱們的專欄吧
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。若是你研究或從事 AI 領域,歡迎在公衆號後臺點擊「交流羣」,小助手將把你帶入 PaperWeekly 的交流羣裏。