論文筆記:Meshed-Memory_Transformer_for_Image_Captioning_CVPR2020

背景: transformer-based architectures 沒有充分利用到多模型圖像字幕。 創新點: 我們提出了一個新型fully-attention圖像字幕算法,對於image caption我們提出了一個帶有內存的 網格transformer。這個結構優化了圖像編碼器和語言生成步驟,它學習集成先驗知識的圖像區域之 間關係的多級表示,並在解碼階段使用網格狀連接來利用低和高級特徵。 結
相關文章
相關標籤/搜索