Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

時間 2021-05-23

原文原文鏈接

原文鏈接：link 摘要自頂向下的注意力機制在image caption和VQA中被廣泛地使用。本文提出的想法是結合top-down和bottom-up注意力機制。基於faster RCNN的bottom-up方法給出圖像區域的特徵向量，top-down注意力給出特徵的權重。 introduction 在人類的視覺系統中，注意力可以被由當前任務決定的自上而下的信號(例如尋找某物)集中起來，也可以

>>阅读原文<<