M4C:Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA ---論文閱讀筆記

時間 2020-12-23

標籤 ------多模態相關------ VQA 計算機視覺深度學習人工智能欄目 C&C++ 简体版

原文原文鏈接

Paper : https://arxiv.org/abs/1911.06258 Code : https://ronghanghu.com/m4c/ 基於多模式 transformer 結構以及圖像中文本的豐富表示形式。通過將不同模態嵌入到共同的語義空間中，自然地將不同的模式融合在一起，在該空間中，自我注意被應用於模式間和模式內上下文。使用動態指針網絡進行迭代答案解碼，從而允許模型通過多步預測

>>阅读原文<<