《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》讀後感想

時間 2020-12-23

原文原文鏈接

跟隨attetion工作閱讀該文摘要該文給我帶來的思考首先於注意力的使用，它採用的co-attention結構，注意力函數類似於attention is all you need 類似採用多層尺度乘法注意，第二它採用拉伸的特徵向量表示句子或圖像。模型結構如圖所示，Q 和V分別是圖像和問句的特徵表示，大小爲d×T， d×N，T 爲特徵圖展平後長度，N爲句子長度。該模型共有L個堆疊的Dense

>>阅读原文<<