論文筆記：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

時間 2020-12-30

標籤深度學習简体版

原文原文鏈接

1. 引言在image captioning和VQA中爲了生成搞質量的輸出，需要精細的視覺處理甚至多步推導。所以，視覺注意機制被廣泛的應用。兩個定義： top-down：nonvisual or task-specific context bottom-up：purely visual feed-forward attention mechanisms 在image captioning和VQ

>>阅读原文<<