論文筆記:X-Linear Attention Networks for Image Captioning

創新點: 我們介紹以一種統一的注意力塊—X線性注意塊,它完全採用雙線性池來選擇性地利用視覺信息或執行多模態推理。 技術上,X線性注意力塊同時利用空間和信道雙線性注意分佈來捕獲輸入單模態或多模態之間的二階相互作用特徵。 當我們回顧傳統的注意力機制時,可以發現它往往利用線性融合來進行跨模態的特徵交互學習,所以其本質只挖掘了不同模態間一階的特徵交互,大大限制了注意力機制在視覺與語言這一複雜的跨模態內容推
相關文章
相關標籤/搜索