Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

原文鏈接:link 摘要 自頂向下的注意力機制在image caption和VQA中被廣泛地使用。本文提出的想法是結合top-down和bottom-up注意力機制。基於faster RCNN的bottom-up方法給出圖像區域的特徵向量,top-down注意力給出特徵的權重。 introduction 在人類的視覺系統中,注意力可以被由當前任務決定的自上而下的信號(例如尋找某物)集中起來,也可以
相關文章
相關標籤/搜索