論文筆記：Meshed-Memory_Transformer_for_Image_Captioning_CVPR2020

時間 2020-12-23

原文原文鏈接

背景： transformer-based architectures 沒有充分利用到多模型圖像字幕。創新點：我們提出了一個新型fully-attention圖像字幕算法，對於image caption我們提出了一個帶有內存的網格transformer。這個結構優化了圖像編碼器和語言生成步驟，它學習集成先驗知識的圖像區域之間關係的多級表示，並在解碼階段使用網格狀連接來利用低和高級特徵。結