預訓練 Bert 【 VilBERT，LXMERT，VisualBERT，Unicoder-VL，VL-BERT，ImageBERT 】--- 記錄

時間 2021-01-17

標籤 ------多模態相關------ VQA 简体版

原文原文鏈接

VilBERT 和 LXMERT 網絡結構都是句子和圖像的兩個單模態的網絡，然後使用一個跨模態的 Transformer 融合信息。 VisualBert , B2T2, Unicoder-VL，VL-BERT，Unified VLP，UNITER的網絡結構都大致相同，不同在於預訓練數據集和任務不同。 IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-S

>>阅读原文<<