通用的圖像-文本語言表徵學習:多模態預訓練模型 UNITER

通用的圖像-文本語言表徵學習:多模態預訓練模型 UNITER   導讀: 聯合圖像-文本的表徵學習爲大多數視覺+語言 ( V+L ) 任務的基礎,一般通過聯合處理多模態輸入,得到用於實現對視覺和文本的理解。但是,這種特徵通常是針對特定任務的。在本文將介紹一種通用的圖像-文本表徵學習 UNITER。UNITER 是通過在四個圖像-文本數據集 ( COCO, Visual Genome, Concep
相關文章
相關標籤/搜索