In Defense of Grid Features for Visual Question Answering論文閱讀

In Defense of Grid Features for Visual Question Answering 論文閱讀 Abstract 作爲「自底向上」關注,基於邊界框(或區域)的視覺特徵最近已經超過了普通的基於網格的卷積特徵,成爲視覺和語言任務(如視覺問題回答(VQA))的事實標準。然而,還不清楚地區的區域(例如更好的定位)是否是自下而上注意力成功的關鍵原因。在這篇文章中,我們重新審視了
相關文章
相關標籤/搜索