通用的圖像-文本語言表徵學習：多模態預訓練模型 UNITER

時間 2020-12-30

原文原文鏈接

通用的圖像-文本語言表徵學習：多模態預訓練模型 UNITER 導讀：聯合圖像-文本的表徵學習爲大多數視覺+語言 ( V+L ) 任務的基礎，一般通過聯合處理多模態輸入，得到用於實現對視覺和文本的理解。但是，這種特徵通常是針對特定任務的。在本文將介紹一種通用的圖像-文本表徵學習 UNITER。UNITER 是通過在四個圖像-文本數據集 ( COCO, Visual Genome, Concep