LXMERT: Learning Cross-Modality Encoder Representations from Transformers 論文筆記

文章目錄 1. 文章概要 2. 模型體系結構 2.1 Input Embeddings 2.2 編碼器 2.3 輸出表示 3. 預訓練任務 3.1 Language Task: Masked Cross-Modality LM 3.2 Vision Task: Masked Object Prediction 3.3 跨模態任務 4. 實驗結果 文章下載地址:. 1. 文章概要 視覺 - 語言推理
相關文章
相關標籤/搜索