預訓練 Bert 【 VilBERT,LXMERT,VisualBERT,Unicoder-VL,VL-BERT,ImageBERT 】--- 記錄

VilBERT 和 LXMERT 網絡結構都是句子和圖像的兩個單模態的網絡,然後使用一個跨模態的 Transformer 融合信息。 VisualBert , B2T2, Unicoder-VL,VL-BERT,Unified VLP,UNITER的網絡結構都大致相同,不同在於預訓練數據集和任務不同。 IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-S
相關文章
相關標籤/搜索