LXMERT: Learning Cross-Modality Encoder Representations from Transformers 論文筆記

時間 2021-01-13

原文原文鏈接

文章目錄 1. 文章概要 2. 模型體系結構 2.1 Input Embeddings 2.2 編碼器 2.3 輸出表示 3. 預訓練任務 3.1 Language Task: Masked Cross-Modality LM 3.2 Vision Task: Masked Object Prediction 3.3 跨模態任務 4. 實驗結果文章下載地址：. 1. 文章概要視覺 - 語言推理

>>阅读原文<<