重磅！百度多模態模型ERNIE-ViL刷新5項任務紀錄，並登頂權威榜單VCR

時間 2021-02-18

標籤 git github 微信分佈式學習測試人工智能 spa blog 圖片欄目 Git 简体版

原文原文鏈接

關注官方微信公衆號【百度NLP】，及時獲取更多天然語言處理領域技術乾貨！

閱讀原文：https://mp.weixin.qq.com/s/nB_yCkEXkgjv7saKpcNpnggit

近日，藉助飛槳深度學習平臺分佈式訓練領先優點，百度在多模態語義理解領域取得突破，提出知識加強視覺-語言預訓練模型 ERNIE-ViL，首次將場景圖（Scene Graph）知識融入多模態預訓練，在 5 項多模態任務上刷新世界最好效果，並在多模態領域權威榜單 VCR 上超越微軟、谷歌、Facebook 等機構，登頂榜首。據機器之心瞭解，基於飛槳實現的 ERNIE-ViL 模型也將於近期開源。github

多模態語義理解是人工智能領域重要研究方向之一，如何讓機器像人類同樣具有理解和思考的能力，須要融合語言、語音、視覺等多模態的信息。微信

近年來，視覺、語言、語音等單模態語義理解技術取得了重大進展。但更多的人工智能真實場景實質上同時涉及到多個模態的信息。例如，理想的人工智能助手須要根據語言、語音、動做等多模態的信息與人類進行交流，這就要求機器具有多模態語義理解能力。分佈式

近日，百度在該領域取得突破，提出業界首個融合場景圖知識的多模態預訓練模型 ERNIE-ViL。百度研究者將場景圖知識融入到視覺-語言模型的預訓練過程，學習場景語義的聯合表示，顯著加強了跨模態的語義理解能力。ERNIE-ViL 還在包括視覺常識推理、視覺問答、引用表達式理解、跨模態圖像檢索、跨模態文本檢索等 5 項典型多模態任務中刷新了世界最好效果。並在多模態領域權威榜單視覺常識推理任務（VCR）上登頂榜首。學習

論文連接：測試

https://arxiv.org/abs/2006.16934人工智能

ERNIE 開源地址：spa

https://github.com/PaddlePaddle/ERNIEblog

ERNIE-ViL 登頂 VCR 榜單

VCR Leaderboard 最新版。子任務一：Q->A（Question Answering）。子任務二：QA→R（Answer Justification）。綜合得分：Q→AR：模型的綜合表現（兩個子任務都對才得分）。圖片

上小學的時候，「看圖說話」在語文試卷中常年佔據着一席之地。好比給出下面這張圖，讓咱們描述圖裏的人物在幹什麼、想什麼、有着怎樣的心情。

一樣，在人工智能領域，機器也須要具有「看圖說話」的能力。

以下邊這張圖，出題人問：「右邊的那我的是如何得到她面前的錢的？」進一步還要回答「你爲何作出這樣的推斷？」也就是說，模型不只須要識別出圖像中的物體「人」、「樂器」、「硬幣」，還須要對它們的關係「人演奏樂器」等進行理解，並經過「街頭表演掙錢」這樣的常識進行推理。

VCR（Visual Commonsense Reasoning，視覺常識推理）就是由十幾萬這樣的圖片和問題組成的數據集。該數據集由華盛頓大學和艾倫人工智能研究所的研究者聯合建立，考查的是模型的多模態語義理解與推理能力。

微軟、谷歌、Facebook 等科技公司及 UCLA、佐治亞理工學院等頂尖高校都對該任務發起了挑戰。

6 月 24 號，該榜單被再次刷新，來自百度 ERNIE 團隊的 ERNIE-ViL 在單模型效果和多模型效果上都取得了第一的成績，並在聯合任務上以準確率領先榜單第二名 3.7 個百分點的成績登頂，超越了微軟、谷歌、Facebook 等機構。

融合場景圖知識的 ERNIE-ViL

當人們看到上面這張圖的時候，首先會關注圖中的物體（Objects）以及特色屬性（Attributes）和期間的關係（Relationships）。如：「車」、「人」、「貓」、「房屋」等物體構成了圖片場景中的基本元素；而物體的屬性，如：「貓是白的」，「汽車是棕色的」則對物體作了更精細的刻畫；物體間的位置和語義關係，如：「貓在車上」，「車在房屋前」等，創建了場景中的物體的關聯。所以，物體、屬性和關係共同構成了描述視覺場景的細粒度語義（Detailed Semantics）。

基於此觀察，百度的研究者將包含場景先驗知識的場景圖（Scene Graph）融入到多模態預訓練過程當中，建模了視覺-語言模態之間的細粒度語義關聯，學習到包含細粒度語義對齊信息的聯合表示。

以下圖所示，基於文本中解析出的場景圖，ERNIE-ViL 提出了三個多模態預訓練的場景圖預測（Scene Graph Prediction）任務：物體預測（Object Prediction）、屬性預測（Attribute Prediction）、關係預測（Relationship Prediction）。

物體預測：隨機選取圖中的一部分物體，如圖中的「house」，對其在句子中對應的詞進行掩碼，模型根據文本上下文和圖片對被掩碼的部分進行預測；
屬性預測：對於場景圖中的屬性 - 物體對，如圖中的「<dress, blue>」，隨機選取一部分詞對其中的屬性進行掩碼，根據物體和上下文和圖片對其進行預測;
關係預測：隨機選取一部分「物體 - 關係 - 物體」三元組，如圖的「<cat, on top of, car >」，而後對其中的關係進行掩碼，模型根據對應的物體和上下文和圖片對其進行預測。

經過場景圖預測任務，ERNIE-ViL 學習到跨模態之間的細粒度語義對齊，如將語言中「貓」、「車是棕色的」、「貓在車上」等語義信息對應到圖像中相應的區域。

除以上提出的場景圖預測的任務外，ERNIE-ViL 的預訓練還使用了掩碼語言模型（Masked Language Modelling）、掩碼圖像區域預測（Masked Region Prediction）、圖文對齊（Image-Text Matching）等任務。

實驗結果

研究者經過視覺常識推理、視覺問答等多模態下游任務，對 ERNIE-ViL 的模型能力進行了驗證。

除了在視覺常識推理任務上取得 SOTA 以外，ERNIE-ViL 在視覺問答、跨模態圖片檢索、跨模態文本檢索、引用表達式理解等任務上也刷新了 SOTA 結果。

引用表達式理解（Referring Expressions Comprehension, RefCOCO+）任務是給定一段天然語言描述，圖像中定位到相關的區域，該任務涉及到細粒度的跨模態語義對齊（天然語言短語與圖像區域），所以更加考查聯合表示對語義刻畫的精細程度，ERNIE-ViL 在該任務的兩個測試集上（testA、testB）對比當前最優效果均提高了 2.0 個百分點以上。

視覺問答（Visual Question Answering,VQA）任務是給定一個圖片以及文本描述的問題，要求模型給出答案。該任務須要對文本和圖像進行更深刻的理解和推理，同時該任務裏的問題涉及細粒度的語義（物體、物體屬性、物體間關係），可以檢驗模型對於場景的理解深度。ERNIE-ViL 在該任務上以 74.93% 的得分取得了單模型的最好成績。

跨模態圖像 & 文本檢索 （Cross-modal Image-Retrieval，IR；Cross-modal Text-Retrieval，TR）任務是多模態領域的經典任務，給定圖像檢索相關的文本以及給定文本檢索相關的圖像。該任務實質上是計算圖像模態和文本模態在語義上的類似度，要求模型同時兼顧總體語義和細粒度語義。ERNIE-ViL 在這兩個任務上分別以 R@1 提高 0.56 個百分點和 0.2 個百分點的結果刷新了 SOTA。

模型分析

百度研究者經過構建多模態完形填空測試實驗，驗證了 ERNIE-ViL 更強的跨模態知識推斷能力：給定一組圖片 - 文本對齊數據，分別將文本中的物體、關係或屬性詞掩碼，讓模型根據上下文和圖片進行預測。實驗代表，在對文中表述細粒度語義的詞（物體、屬性、關係）進行預測時，ERNIE-ViL 表現更爲優越，準確率分別提高 2.12%、1.31% 和 6.00%。

同時，論文中給出了完形填空測試的若干實例，從下圖中能夠看出，ERNIE-ViL 每每可以更精確地預測出被掩碼的物體、屬性和關係，而基線模型每每只能預測出原有詞的詞性，可是很難準確預測出具體的詞。

結語

聽懂、看懂、理解環境是人工智能的重要目標之一，實現該目標的首要任務是讓機器具有多模態語義理解能力。這次百度提出的知識加強多模態模型 ERNIE-ViL，首次將場景圖知識融入多模態模型的預訓練過程，在視覺問答、視覺常識推理等 5 個任務上刷新紀錄，爲多模態語義理解領域研究提供了新的思路。除了上述公開數據集效果突破外，ERNIE-ViL 技術也逐步在真實工業應用場景中落地。將來百度將在該領域進行更深刻的研究和應用，使其發揮更大的商業和社會價值。

百度天然語言處理（Natural Language Processing，NLP）以『理解語言，擁有智能，改變世界』爲使命，研發天然語言處理核心技術，打造領先的技術平臺和創新產品，服務全球用戶，讓複雜的世界更簡單。