論文筆記:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

1. 引言 在image captioning和VQA中爲了生成搞質量的輸出,需要精細的視覺處理甚至多步推導。所以,視覺注意機制被廣泛的應用。 兩個定義: top-down:nonvisual or task-specific context bottom-up:purely visual feed-forward attention mechanisms 在image captioning和VQ
相關文章
相關標籤/搜索