M4C:Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA ---論文閱讀筆記

Paper : https://arxiv.org/abs/1911.06258 Code : https://ronghanghu.com/m4c/ 基於多模式 transformer 結構以及圖像中文本的豐富表示形式。 通過將不同模態嵌入到共同的語義空間中,自然地將不同的模式融合在一起,在該空間中,自我注意被應用於模式間和模式內上下文。使用動態指針網絡進行迭代答案解碼,從而允許模型通過多步預測
相關文章
相關標籤/搜索