【漲點神器】GSA:全局自注意力網絡,打造更強注意力模型

點擊上方【AI人工智能初學者】,選擇【星標】公衆號,期待您個人相遇與進步
  • 論文下載地址
    https://openreview.net/forum?id=KiFeuZu24k

本文提出一個新的全局自注意力模塊:GSA,該模塊足夠高效,能夠用做backbone組件。其由兩個並行層組成:內容注意力層和位置注意力層,表現SOTA!性能優於SAN(CVPR 2020)等注意力網絡
node

一、簡介

因爲自注意力的二次計算和存儲複雜性,這些工做要麼僅將注意力應用於深層網絡後期的低分辨率特徵圖,要麼將每層的注意力感覺野限制在較小的局部區域。爲了克服這些限制,本文引入了一個新的全局自注意力模塊,稱爲GSA模塊,該模塊足夠高效,能夠用做深度網絡的backbone組件。
web

該模塊由兩個並行層組成:一個內容注意力層,僅基於像素的內容對其進行關注;一個位置關注層,其基於像素的空間位置進行關注。該模塊輸出是兩層輸出的總和。在提出的GSA模塊的基礎上引入了獨立的基於全局注意力的網絡,該深度網絡使用GSA模塊來建模像素交互。因爲所提出的GSA模塊具備全局範圍,因此GSA網絡可以在整個網絡中對遠距離像素間的相互做用進行建模。算法

實驗結果代表,GSA網絡在使用較少的參數和計算量的狀況下,在CIFAR-100和ImageNet數據集上顯著優於基於卷積的網絡。在ImageNet數據集上,提出的GSA網絡也優於現有的各類基於注意力的網絡。微信

二、相關方法

2.一、Auxiliary Visual Attention

Non-Local Block首次在計算機視覺中採用dot-product attention注意力機制進行long-range dependency建模,實驗驗證了該算法在視頻分類和目標檢測方面的有效性。網絡

最近,一系列的工做將Transformer引入了計算機視覺領域。使用深度CNN模型提取語義特徵,而後由Transformer對特徵之間的高層交互進行建模。有學者使用Transformer建模對象級的交互以進行對象檢測,也有學者使用Transformer建模幀間的依賴關係以進行視頻表示學習。app

這些輔助注意力方法在大部分卷積的網絡中或僅在網絡的末端使用注意模塊。它們加強了CNN的遠程交互建模,但仍然將大部分特徵建模歸爲卷積操做。編輯器

2.二、Bacbone Visual Attention

因爲Non-Local Block高昂的開銷使得沒法普遍替換卷積層,致使最終的模型仍然有大部分卷積模塊。有研究人員將感覺野限制在一個local內(一般是7*7)來解決這個問題。也有研究人員利用global attention的軸向分解來解決這個問題。svg

三、本文方法

3.一、Content Attention Layer

這一層使用如下基於內容的全局注意操做來生成新的特性:性能

式中, 爲K的矩陣轉置, 表示對每一行分別進行softmax歸一化的運算。這種注意力機制能夠被視爲第一個像素特徵V經過使用 中的權重聚合到dk全局上下文向量,而後從新分配全局上下文向量回每一個像素使用Q。這個操做的計算和內存複雜度是O(N)。學習

3.二、Positional Attention Layer

內容注意層不考慮像素的空間位置,所以與像素變換是等變的。就其自己而言,它並不最適合處理空間結構化數據(如圖像)的任務。本文經過使用位置注意層來解決這個問題,該層根據像素自己的內容及其相對於相鄰像素的空間位置來計算像素的Attention map。對於每一個像素,位置注意層關注它的L×L近鄰spatial。

本文將這個注意層實現爲一個僅存在列的注意層,而後是一個僅存在行的注意層。在僅列關注層中,輸出像素只關注其列上的輸入像素,而在僅行關注層中,輸出像素只關注其行上的輸入像素。讓 是一組L補償, 表示L沿着一條列可學的相對位置嵌入相應的矩陣空間偏移量 。設爲像素(a,b)的L列鄰居處的值組成的矩陣。設 表示像素點處的無列位置注意層的輸出(a,b)。而後,僅列位置注意力機制,使用相對位置嵌入做爲關鍵,能夠描述使用:

其中 爲像素點(a,b)處的查詢。因爲每一個像素只關心L列鄰居,所以這個僅列位置注意層的計算和存儲複雜性爲O(NL),其中N爲像素的個數。相似地,能夠使用L行鄰居對應的L可學習相對位置嵌入 來定義具備O(NL)計算和內存複雜性的僅行位置注意層。

3.三、GSA Network

GSA網絡是使用GSA模塊而不是空間卷積來建模像素交互的深度網絡。表1顯示了GSA網絡與最近各類基於注意力的網絡的區別。

四、實驗結果

4.一、基於CIFAR-100實驗

能夠看出在CIFAR-100數據集上基於GSA的設計,參數更少,精度更高;

4.二、基於ImageNet實驗

能夠看出在ImageNet數據集上基於GSA的設計,參數更少,精度更高;

更爲詳細內容能夠參見論文中的描述。

References

[1] GLOBAL SELF-ATTENTION NETWORKS

聲明:轉載請說明出處

掃描下方二維碼關注【AI人工智能初學者】公衆號,獲取更多實踐項目源碼和論文解讀,很是期待你個人相遇,讓咱們以夢爲馬,砥礪前行!!!

點「在看」給我一朵小黃花唄

本文分享自微信公衆號 - AI人工智能初學者(ChaucerG)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索