《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》讀後感想

跟隨attetion工作閱讀該文 摘要 該文給我帶來的思考首先於注意力的使用,它採用的co-attention結構,注意力函數類似於attention is all you need 類似採用多層尺度乘法注意,第二它採用拉伸的特徵向量表示句子或圖像。 模型結構 如圖所示,Q 和V分別是圖像和問句的特徵表示,大小爲d×T, d×N,T 爲特徵圖展平後長度,N爲句子長度。該模型共有L個堆疊的Dense
相關文章
相關標籤/搜索