Check It Again: Progressive Visual Question Answeringvia Visual Entailment

時間 2021-08-12

原文原文鏈接

Check It Again: Progressive Visual Question Answeringvia Visual Entailment

Abstract

雖然複雜的視覺問答模型取得了顯着的成功，但它們每每只根據問題和答案之間的表面相關性來回答問題。最近已經開發了幾種的方法來解決這個語言先驗問題。然而，他們中的大多數人根據一個最佳輸出預測正確答案，而沒有檢查答案的真實性。此外，他們只探索圖像和問題之間的相互做用，而忽略了候選答案的語義。在本文中，咱們提出了一種基於Visual Entailment的select-and-rerank (SAR) 漸進式框架。具體來講，咱們首先選擇與問題或圖像相關的候選答案，而後咱們經過視覺蘊涵任務對候選答案從新排序，這驗證圖像在語義上是否包含問題和每一個候選答案的綜合陳述。實驗結果代表了咱們提出的框架的有效性，它在 VQA-CP v2 上創建了一個新的最早進的準確度，提升了 7.55%算法

1 Introduction

視覺問答（VQA）任務是一個多模態問題，須要對視覺和文本信息的全面理解。面對輸入圖像和問題，VQA 系統嘗試在大預測空間中肯定正確答案。最近，一些研究（Jabri 等人，2016 年；Agrawal 等人，2016 年；Zhang 等人，2016 年；Goyal 等人，2017 年）代表 VQA 系統存在由答案和問題之間的偶然相關性。結果，傳統的 VQA 模型老是輸出輸入樣本問題類別的最多見答案（Selvaraju et al.，2019），不管給出什麼樣的圖片。爲了解決這個語言先驗問題，已經開發了各類方法。然而，經過探索現有方法的特色，咱們發現不管是 UpDn(Andersonet al., 2018) 和 LXMERT(Tan and Bansal, 2019) 等通用 VQA 模型仍是爲語言先驗精心設計的模型，如 LMH(Clark et al., 2019)。 , 2019) 和 SSL(Zhu et al., 2020) 產生了一個不可忽略的問題。兩種模型都根據一個最佳輸出預測正確答案，而無需檢查答案的真實性。此外，這些模型沒有很好地利用答案的語義信息來幫助緩解語言先驗。跨域

以下圖（a）所示，不少正確答案經常出如今top-N中而不是top-1中。同時，若是給出top-N個候選答案，圖像能夠進一步驗證基於問題和候選答案組合的概念的視覺存在/不存在。以下圖 (b) 所示，問題是關於蝙蝠的顏色，兩個候選答案是「黃色」和「黑色」。在檢查候選答案的正確性後，能夠排除與圖像相矛盾的錯誤答案「黃色」，並確認與圖像一致的正確答案「黑色」。減輕語言先驗的語義，還沒有獲得充分研究。網絡

在本文中，咱們提出了一種基於 Visual Entailment 的 select-and-rerank(SAR) 漸進框架。擬議框架背後的直覺來自兩個觀察結果。首先，排除與問題和圖像無關的答案後，預測空間縮小，咱們能夠得到少許候選答案。其次，在一個問題及其候選答案橋接成完整陳述的狀況下，該陳述的真實性能夠經過圖片的內容來推斷。所以，在選擇了幾個可能的答案做爲候選後，咱們能夠利用由圖像-文本對組成的視覺蘊涵來驗證圖像是否在語義上蘊涵合成語句。根據蘊涵度，咱們能夠進一步從新排列候選答案，並給模型另外一個機會找到正確的答案。總而言之，咱們的貢獻以下：框架

咱們提出了一個選擇和從新排序的進步框架來解決語言先驗問題，並對該框架的每一個模塊的一系列設計選擇進行實證研究。另外，它是一個通用的框架，能夠很容易地與現有的VQA模型結合，進一步提高它們的能力。
咱們強調了文本和圖像之間的驗證過程，並將 VQA 任務制定爲視覺蘊涵問題。這個過程充分利用了圖像、問題和候選答案的交互信息。
實驗結果代表，咱們的框架創建了 66.73% 的最新準確率，大大優於現有方法。

Language-Priors Methods

爲了解決VQA模型的語言先驗問題，已經提出了不少方法，能夠大體分爲兩類(1)Designing Specific Debiasing Models to Reduce Biases。該系列的大多數做品都是基於集成的方法（Ramakrishnan 等人，2018 年；Grand 和 Be-linkov，2019 年；Belinkov 等人，2019 年；Cadene 等人，2019 年；Clark 等人，2019 年；Mahabadi 和 Henderson，2019），其中，LMH（Clark 等，2019）經過懲罰能夠在不使用圖像內容的狀況下回答的樣原本減小問答對之間的全部誤差。(2)Data Augmentationto Reduce Biases。這些做品（Zhang et al., 2016; Goyal et al., 2017; Agrawalet al., 2018）的主要思想是仔細構建更平衡的數據集以克服先驗。例如，最近的方法 SSL(Zhu et al., 2020) 首先自動生成一組平衡的問題圖像對，而後引入輔助自監督任務來使用平衡數據。CSS(Chen et al., 2020a) 經過添加更多互補樣原本平衡數據，這些樣本是由圖像中的掩蔽對象或問題中的一些關鍵字生成的。基於CSS，CL(Liang et al., 2020)強制模型利用互補樣本和原始樣本之間的關係。與不使用任何額外手動註釋的 SSL 和 CSS 不一樣，MUTANT(Gokhale et al., 2020) 利用額外的對象名稱標籤訂位圖像中的關鍵對象和問題中的關鍵詞，這直接幫助模型肯定在圖像中的文本概念。然而，上述方法只探討了圖像和問題之間的相互做用，而忽略了候選答案的語義。在本文中，咱們提出了漸進式 VQA 框架 SAR，它實現了問題、圖像和答案之間更好的交互。ide

Answer Re-ranking

儘管 VQA 任務中的 AnswerRe-ranking仍處於起步階段，但它已被普遍研究用於開放域問答等 QA 任務，其中模型須要基於普遍的開放域知識源回答問題。最近的工做（Wanget al., 2018b,a; Kratzwald et al., 2019）以兩個階段的方式解決了這個任務：從全部段落中提取候選答案，而後關注這些候選答案並對它們從新排序以得到最終答案。RankVQA（Qiao et al., 2020）將 AnswerRe-ranking 方法引入到 VQA 任務中。然而，RankVQA 仍然預測來自巨大的預測空間而不是選定的候選答案函數

3 Method

下圖顯示了所提出的select-and-rerank (SAR) 框架的概述，該框架由候選答案選擇模塊和答案從新排序模塊組成。在候選答案選擇模塊中，給定一個圖像和一個問題，咱們首先使用當前的 VQA 模型來得到由 top-N個答案組成的候選答案集。在這個模塊中，能夠過濾掉與問題無關的答案。接下來，咱們將 VQA 制定爲 Answer Re-ranking 模塊中的 VE 任務，其中圖像是前提，合成密集字幕（Johnson 等人，2016）（答案和問題的組合）是假設。咱們使用跨域預訓練模型 LXMERT(Tanand Bansal, 2019) 做爲 VE 評分器來計算每一個圖像字幕對的蘊含分數，所以得分最高的密集字幕對應的答案就是咱們的最終預測。咱們使用跨域預訓練模型 LXMERT(Tanand Bansal, 2019) 做爲 VE 評分器來計算每一個圖像字幕對的蘊含分數，所以得分最高的密集字幕對應的答案就是咱們的最終預測。性能

3.1 Candidate Answer Selecting

候選答案選擇器 (CAS) 從全部可能的答案中選擇幾個答案做爲候選，從而縮小了巨大的預測空間。給予\(M\)個VQA的數據\(D=\{I_i,Q_i\}_{i=1}^M\)其中\(I_i\in I,Q_i\in Q\)是第\(i\)個樣本的圖像和問題數據，\(A\)是包含上千個答案的預測空間。CAS是一個\(|A|\)分類，CAS根據輸入的圖像\(I_i\)和輸入的問題\(Q_i\)，將會給出迴歸分數：\(P(A|Q_i,I_i)\)，網絡的結構選擇是自由的，最後候選答案選擇其從\(A\)中選出top-N個分數最高的答案做爲候選答案：學習

\[A_i^*=topN(argsort(P(A|Q_i,I_i))) \]

其中\(N\)爲超參數，候選答案\(A_i^*=[A_i^1,A_i^2,...,A_i^N]\)和每一個數據隊將造成包含\(M*N\)個數據的新的數據集測試

\[D'=\{I_i,Q_i,A_i^n\}_{i=1,n=1}^{M,N} \]

其中\(A_i^n\in A_i^*\)，在本文中，咱們主要使用 SSL 做爲咱們的CAS。咱們還進行了實驗來分析不一樣CAS和不一樣N的影響。優化

3.2 Answer Re-ranking

3.2.1 Visual Entailment

Xieet等人提出了 Visual Entailment (VE) 任務。 (2019)，前提是真實的世界圖像\(P_{image}\)，假設爲文本\(H_{text}\)，給定一個樣本\((P_{image},H_{text})\)，VE任務的目標是肯定根據信息\(P_{image}\)可否能夠得出結論\(H_{text}\)。根據如下協議，樣品的標籤被分配給

1.Entailment（蘊含），若是\(P_{image}\)有足夠的證據證實\(H_{text}\)是正確的。

2.Contradiction（矛盾），若是\(P_{image}\)有足夠的證據證實\(H_{text}\)是錯誤的。

3.Neutral（中立的），若是\(P_{image}\)有沒有足夠的證據來得出\(H_{text}\)的結論。

3.2.2 VQA As Visual Entailment

每個候選答案\(A_i^*\)和他的問題均可以橋接成一個完整的陳述，而後圖像用來驗證每一個陳述的真實性。更具體地說，概念的視覺呈現（例如「黑蝙蝠」/「黃蝙蝠」）基於問題和正確/錯誤候選答案的組合能夠被圖像內容所包含/矛盾。經過這種方式，咱們實現了問題、圖像和答案之間更好的互動。

所以，咱們將 VQA 表述爲一個 VE 問題，其中圖像\(I_i\)是前提，\(A_i^*\)中的答案\(A_i^n\)和問題\(Q_i\)的綜合陳述表示爲\((Q_i,A_i^n)\)是假設。對於同一幅圖像，不一樣問題的綜合陳述描述了同一圖像的不一樣區域。繼約翰遜等人（2016）以後，咱們也將合成語句稱爲「dense caption」。咱們使用\(A_i^+\)表示是問題\(Q_i\)的正確答案的\(A_i^n\)，反之則使用\(A_i^-\)。\(I_i\)有足夠的證據證實\((Q_i,A_i^+)\)爲真，即視覺語言寓意蘊含\((Q_i,A_i^+)\)的。而且\(I_i\)有足夠的證據證實\((Q_i,A_i^-)\)是假的，即視覺語言語義上是衝突\((Q_i,A_i^-)\)的。請注意，咱們的 VE 任務中沒有 Neutral標籤，咱們只有兩個標籤：Entailment 和 Contradiction。

3.2.3 Re-Ranking based on VE

咱們經過對比學習從新排列密集字幕，\((Q_i,A_i^+)\)應該在語義上對於圖像\(I_i\)比\((Q_i,A_i^-)\)更類似。整體結構的右側部分說明了這個想法。語義上越是想死，視覺蘊含度就越深。咱們對每一個\((Q_i,A_i^n)\)與圖像\(I_i\)的視覺蘊含進行評分，並根據這個分數對候選答案\(A_i^*\)進行排序。排名第一的爲咱們的最終輸出。

Question-Answer Combination Strategy

只有將答案信息與問題結合起來時，答案信息纔有意義。咱們對問答文本的組合進行編碼以得到聯合概念。咱們設計了三個問答組合策略：\(R\)，\(C\)，和\(R\rightarrow C\)去將問答組合合成dense caption\(C_i\)

R:Replace question category prefix with answer

每一個問題的前綴是問題類別，例如「在那裏」、「什麼顏色」等。例如，給定一個問題「How many flowers inthe vase?」，它的答案是「8」，問題類別是「How many」，獲得的密集標題是「8 flow-ers in the vase」。一樣地，「No a crosswalk」是由問題「 Is this a crosswalk?」和答案「No」生成的。首先創建訓練集全部問題類別的字典，而後採用前向最大匹配算法肯定每一個測試樣本的問題類別。

C:Concatenate question and answer directly

在上面的兩個例子中，密集的標題是「8 How many flowers in the vase？」和「No Isthis a crosswalk?」。串聯後產生的密集字幕其實是反問句。咱們特地在問題文本前面添加了答案文本，以免在將密集字幕修剪爲相同長度時刪除答案。

R→C:

咱們首先在訓練中使用策略 R，旨在防止模型過分關注問題類別和答案之間的共現關係，而後在測試中使用策略 C 引入更多信息進行推理。

採用上述的任何策略，咱們將\(Q_i\)和\(A_i^*\)中的每個答案結合起來生成密集字幕\(C_i^*\),所以咱們得到數據量爲\(M*N\)的數據集\(D''=\{I_i,C_i^n\}_{i=1,n=1}^{M,N}\)爲下面的VE任務。

VE Scorer

咱們使用預先訓練好的模型LXMERT對\((I_i,C_i^n)\)的視覺蘊涵度進行評分。LXMERT 在兩個流中分別對圖像和標題文本進行編碼。接下來，單獨的流經過共同注意的transformer層進行交互。在文本流中，密集字幕被編碼爲高級概念。而後來自視覺流的視覺表示能夠驗證高級概念的視覺存在/不存在。

咱們將第\(i\)張圖片的第\(n\)個候選標題的VE分表示爲\(sigmoid(Trm(I_i,C_i^n))\)其中\(Trm()\)是LXMERT密集層以後的一維輸出。\(\sigma\)表示sigmoid函數。分值越大，表示的包容度越高。咱們經過最小化多標籤軟損失來優化主函數的參數：

\[L_{VE}=\frac{-1}{M*N}\sum_{i=1}^{M}\sum_{n=1}^N[t_i^nlog(\sigma(Trm(I_i,C_i^n)))+(1-t_i^n)log(1-\sigma(Trm(I_i,C_i^n)))] \]

其中\(t_i^n\)是第n個答案的軟標籤分數。

Combination with Language-Priors Method

候選答案選擇後，候選答案的數量從全部可能的答案減小到topN。雖然過濾掉了一些不相關的答案，VE 系統的數據集\(D''\)仍然存在誤差。所以，咱們能夠選擇性地將現有的語言先驗方法應用於咱們的框架，以進一步減小語言先驗。以 SSL 爲例，咱們經過調整損失函數將其自監督任務的損失函數應用到咱們的框架中。

\[L_{ssl}=\frac{α}{M*N}\sum_{i=1}^M\sum_{n=1}^NP(I_i',C_i^n) \]

其中 \((I_i',C_i^n)\)表示不相關的圖像-字幕對，\(α\)是下加權係數。其中的\(P(I_i',C_i^*)\)能夠被認爲是\((I_i',C_i^*)\)的相關置信度。咱們能夠從新制定總體損失函數：

\[L=L_{VE}+L_{ssl} \]

3.3 Inference Process

Question Type Discriminator

直觀地，大多數「是/否」問題均可以經過回答「是」或「否」來回答。在測試階段不須要爲「是/否」問題提供過多的候選答案。所以，咱們提出了一個問題類型鑑別器（QTD）來肯定問題類型，而後相應地設置不一樣數量的候選答案，記爲\(N'\)。具體來講，咱們粗略地將問題類型（包括「是/否」、「數字」和「其餘」）分爲是/否和非是/否。使用交叉熵損失訓練 GRU 二元分類器，並在每一個數據集的訓練拆分上使用 5 折交叉驗證進行評估。而後，在測試階段，將訓練好的 QTD 模型以大約 97% 的準確率實現爲離線模塊。咱們將在下一節中進一步研究 N' 對每種問題類型的影響。

Final Prediction

在推理階段，咱們在第\(i\)張圖片的全部候選\(C_i^*\)中選擇最好的密集字幕\(\widehat{C_i}\)。

\[\widehat{C_i}=argmax_{n\in N'}\sigma(Trm(I_i,C_i^n)) \]

對應於\(\widehat{C_i}\)的答案\(\widehat{A_i}\)是最終預測。

4 Experiment

4.1 Setting

Datasets

咱們的模型在 VQA-CP v2(Agrawal et al., 2018) 數據集上進行了訓練和評估，該數據集是經過從新組織 VQA v2(Goyal et al., 2017) 訓練和驗證集而精心製做的，以便每一個問題類別（根據問題前綴共 65個類別）在訓練集和測試集中有不一樣的分佈。所以，VQA-CP v2是評估 VQA 模型泛化性的天然選擇。VQA-CP v2 的問題包括 3 種類型：「是/否」、「數量」和「其餘」。請注意，問題類型和問題類別（例如「什麼顏色」）是不一樣的。此外，咱們還在 VQA v2 驗證集上評估咱們的模型的完整性，並將兩個數據集之間的準確性差別與標準 VQA 評估指標進行比較（Antolet al., 2015）。

Baselines

咱們將咱們的方法與如下基線方法進行比較：UpDn(Andersonet al., 2018)、AReg(Ramakrishnan et al., 2018)、RUBi(Cadene et al., 2019)、LMH(Clark et al., 2019)、RankVQA( Qiao et al., 2020)、SSL(Zhuet al., 2020)、CSS(Chen et al., 2020a)、CL(Lianget al., 2020) 和 LXMERT(Tan and Bansal, 2019)。其中大部分是設計的對於語言先驗問題，而 LXMERT 表明了使用具備最佳性能的類 BERT 預訓練模型（Li et al., 2019; Chen et al., 2020b; Li et al., 2020）的最新趨勢在各類下游視覺和語言任務（包括 VQA-v2）上。請注意，MUTANT（Gokhale 等人，2020 年）使用額外的對象名稱標籤來肯定圖像中的文本概念。爲了公平比較，咱們不與 MUTANT進行比較。

4.2 Implementation Details

在本文中，咱們主要選擇 SSL 做爲咱們的 CAS 並設置 N=12 和 N=20 進行訓練。爲了提取圖像特徵，咱們遵循以前的工做並使用預訓練的 Faster R-CNN 將每一個圖像編碼爲一組具備 2048 維特徵向量的固定 36 個對象。咱們使用 LXMERT 的分詞器將每一個密集字幕分割成單詞。全部的問題都被修剪成相同的長度，分別爲 15 或 18，分別用於 R 或 C 問答組合策略。在 Answer Re-ranking模型中，咱們分別將 SSL 和 LMH 兩種語言先驗方法結合到咱們提出的框架 SAR 中，稱爲 SAR+SSL 和 SAR+LMH。咱們的模型在兩個 TITAN RTX 24GB GPU 上訓練。咱們訓練 SAR+SSLfor 20 epochs，批大小爲 32，SAR 和 SAR+LMH 訓練 10 epochs，批大小爲 64。對於 SAR+SSL，咱們遵循與原始論文相同的設置（Zhu et al., 2020），除了在使用自監督損失對其進行微調以前，咱們不須要使用 VQAloss 對模型進行預訓練。採用 Adam 優化器，學習率爲 1e-5。

對於問題類型鑑別器，咱們使用 300 維 Glove(Pennington et al., 2014) 向量來初始化詞嵌入並將它們饋送到具備 128 個隱藏單元的單向 GRU。在 VAQ-CP v2 上進行測試時，\(N'\)範圍爲 1-2 對是/否問題和 5-15 對非是/否問題。在 VAQ v2 上進行測試時，\(N'\)範圍爲 1-2 對是/否問題和 2-5對非是/否問題。

4.3 Results and Analysis

4.3.1Main Results

在兩個基準 VQA-CP-v2 和 VQA-v2 上的性能以下圖所示。咱們分別報告了 SAR、SAR+SSL 和 SAR+LMH 在 3 個問答組合策略中的最佳結果。「TopN-」表示候選答案（由 CAS 選擇）輸入 Answer Re-ranking 模塊進行訓練。咱們的方法是用 N(12 和 20) 的兩種設置進行評估的。

從表中所示的 VQA-CP v2 上的結果，咱們能夠觀察到： (1) Top20-SAR+LMH 在 VQA-CP v2 上創建了 66.73% 的最新準確率，擊敗了以前表現最好的方法 CL 爲 7.55%。即便沒有在 Answer Re-ranking 模塊中結合語言先驗方法，咱們的模型 Top20-SAR 也優於 CL 6.26%。這些顯示了咱們提出的 SAR 框架的傑出有效性。 (2) SAR+SSL 和SAR+LMH 實現了比SSL 和LMH 更好的性能，這代表SAR 與當前的語言先驗方法兼容而且能夠充分發揮其潛力。 (3) 與另外一個基於重排序的模型 RankVQA 相比，咱們的方法將性能提高了 23.68%。這代表咱們提出的漸進式選擇和重排序框架優於僅使用答案重排序的 RankVQA 做爲輔助任務。 (4) 之前的模型不能很好地歸納全部問題類型。 CL 在「是/否」、「Num」問題和「其餘」問題上的 LXMERT 是以前最好的。相比之下，咱們的模型不只在「是/否」問題上與以前的最佳模型相媲美，並且在「數字」和「其餘」問題上的最佳性能提升了 12.45% 和 3.65%。在全部問題類型上的卓越表現代表，咱們的模型在真正全面的 VQA 模型方面取得了重大進展。

咱們還在 VQA v2 上評估了咱們的方法，該 VQA v2 被認爲具備很強的語言誤差。如上表所示，咱們的方法在專門爲克服語言先驗而設計的基線中達到了 70.63% 的最佳準確率，而且與 LXMERT 創建的 SOTA 最接近，後者是針對有偏見的數據集進行了明確的訓練。爲了完整性，兩個數據集之間的性能差距也在表格中與 Chen 等人 (2020a)的協議進行了比較。與以前在 VQA v2 和 VQA-CP v2 之間出現嚴重性能降低的大多數模型（例如，LXMERT 中的 27.93%）相比，Top20-SAR+LMH 的性能降低顯着下降至 2.49%，這證實了咱們的框架的有效性進一步克服語言偏見。雖然 CSS 實現了更好的性能差距，但它犧牲了 VQA v2 的性能。同時，隨着 N 從 12 增長到 20，咱們的模型在兩個數據集上都實現了更好的準確性，同時性能差距更小。這代表，與之前的方法不一樣，咱們的方法能夠減輕語言先驗，同時保持出色的回答問題能力。儘管如此，咱們相信如何提升該模型的通用性進一步將語言優先性與回答問題之間的權衡轉化爲共贏的結果是將來一個頗有前途的研究方向。

4.3.2 The Effect of N

從下圖中，咱們能夠觀察到，隨着 N 的增長，總體性能愈來愈好。「Num」和「Other」題的成績提高尤其明顯，「Yes/No」題的成績降低很是小。咱們相信經過適當增長N，SAR能夠進一步得到更好的性能。因爲資源限制，本文咱們使用最大的N是20。

4.3.3 The Effect of Different CAS

爲了找出 CAS 模型的潛在性能限制，咱們在 VQA-CP v2 測試集上展現了 3 個 CAS 模型的準確性。如圖所示，3個模型的Top3準確率(acc)約爲70%，Top6 acc爲80%，保證了CAS召回了足夠多的正確答案。所以，CAS的性能限制能夠忽略不計。

咱們還進行了實驗來研究不一樣 CAS 對 SAR 的影響。從下表所示的結果中，咱們能夠觀察到：（1）選擇更好的 VQA 模型做爲 CAS 並不能保證更好的性能，例如性能基於UpDn 優於基於 LMH 的，但與 UpDn 相比，LMH 在克服語言優先級方面是更好的 VQA 模型。這是由於一個好的候選答案選擇器有兩個要求(a) 應該可以回憶更多的正確答案。(b) 在語言偏見的狀況下，CAS 在訓練時回憶的錯誤答案應該與問題具備儘量強的表面相關性。然而，集成方法，如 LMH，被訓練爲更加關注那些沒有被純問題模型正確回答的樣本。這嚴重下降了那些語言先驗錯誤答案的召回率，致使 VE 的訓練數據過於簡單，從而損害了模型下降語言先驗的能力。 (2)若是CAS是通用VQA模型UpDn而不是LMH和SSL，在Answer Re-ranking模塊中結合語言先驗方法帶來的改進更加明顯。 (3) 即便咱們選擇UpDn，一個當前大多數做品的骨幹模型，做爲咱們的CAS，而且不涉及任何語言先驗方法，SAR仍然比以前的SOTA模型CL得到了2.53%的更好的準確率，這代表咱們的基礎框架已經具有了出色的減小語言先驗的能力。

4.3.4 The Effect of Question-Answer Combination Strategies

從表 3 所示的結果中，咱們能夠觀察到：（1）從整體結果來看，R→C 在三個模型上實現或競爭對手的最佳性能。平均而言，R→C 優於 C 2.02%，這代表在訓練期間避免問題類別和答案的共現能夠有效緩解語言先驗。R→C 優於 R 2.41%，這代表問題類別信息在推理中頗有用。(2) 在 SAR 和 SAR+SSL 上，C 始終優於 R，但在 SAR+LMH 上，咱們看到相反的結果。這多是由於咱們的方法和平衡數據方法 SSL 能夠學習由問題類別和答案之間的表面相關性致使的正誤差，這有助於泛化，但基於集成的方法 LMH 會在去誤差過程當中減弱正誤差。 (3) 即便沒有語言先驗方法，R→C 的 SAR 與 R 或 C 的 SAR+SSL 和 SAR+LMH 競爭或優於 SAR+LMH，這代表 R→C 策略能夠幫助模型減輕語言先驗。所以，與 R 或 C 相比，咱們的 R→C 框架在使用相同的語言先驗方法後僅得到了輕微的性能提高。

4.3.5 Ablation Study

「CAS+」表明咱們使用select-and-rerank結構。從表4中咱們能夠發現：（1）LXM+SSL表明直接將SSL應用到LXMERT。它的糟糕表現代表咱們框架的主要貢獻不是來自語言先驗方法 SSL 和預訓練模型 LXMERT 的組合。 (2) 與 LXM 和 LXM+SSL 相比，CAS+LXM 和 CAS+LXM+SSL 分別得到了 9.35% 和 6.32% 的顯着性能提高，這證實了咱們提出的 select-and- 從新排序程序。 (3) CAS+LXM+QTD(R) 和 CAS+LXM+SSL+QTD(R) 分別優於 CAS+LXM(R) 和 CAS+LXM+SSL(R) 3.93% 和 2.71%，其中顯示了 QTD 模塊的貢獻。這進一步代表，爲不一樣的問題類型選擇合適的 \(N'\)是提升模型性能的有用步驟.(4)CAS+LXM+SSL+QTD使CAS+LXM+QTD的性能提升了2.61%，可見當前的語言先驗方法很是適合咱們的框架，而且能夠進一步提升性能。

4.3.6 The Effect of \(N'\)

從下圖中，咱們能夠發現： (1) 因爲是/否問題的性質，是/否問題的最佳\(N'\)小於非是/否問題的最佳\(N'\)。 (2)隨着\(N'\)的增長，「Num」和「Other」問題的準確率先上升後降低。這種現象背後有一個權衡：當\(N'\)過小時，正確答案可能不會被CAS召回；當\(N'\)太大時，錯誤答案的干擾使模型更難選擇正確答案。

4.3.7 Qualitative Examples

咱們定性地評估咱們框架的有效性。以下圖所示，與 SSL 相比，SAR 不只在問答方面表現更好，並且在視覺接地方面表現更好。藉助答案語義，SAR 能夠關注與候選答案相關的區域，並進一步使用該區域來驗證其正確性。

5 Conclusion

在本文中，咱們提出了一種基於 Visual Entailment 的選擇和從新排序 (SAR) 漸進式框架。具體來講，咱們首先選擇候選答案以縮小預測空間，而後經過視覺蘊涵任務對候選答案進行從新排序，該任務驗證圖像是否在語義上包含問題的綜合陳述和每一個候選答案。咱們的框架能夠充分利用圖像、問題和候選答案的交互信息。此外，它是一個通用框架，能夠很容易地與現有的 VQA 模型結合，進一步提高其能力。咱們經過普遍的實驗和分析證實了咱們的框架在 VQA-CP v2 數據集上的優點。咱們的方法創建了一個新的最早進的準確度 66.73%，比之前的最佳準確度提升了 7.55%。