ACNet: 特別的想法，騰訊提出結合注意力卷積的二叉神經樹進行細粒度分類 | CVPR 2020

時間 2021-02-17

標籤算法微信網絡函數學習 spa 設計 3d orm blog 欄目騰訊简体版

原文原文鏈接

論文提出告終合注意力卷積的二叉神經樹進行弱監督的細粒度分類，在樹結構的邊上結合了注意力卷積操做，在每一個節點使用路由函數來定義從根節點到葉子節點的計算路徑，結合全部葉子節點的預測值進行最終的預測，論文的創意和效果來看都十分不錯

來源：曉飛的算法工程筆記公衆號

論文: Attention Convolutional Binary Neural Tree for Fine-Grained Visual Categorization算法

論文地址：https://arxiv.org/abs/1909.11378

Introduction

細粒度分類(Fine-Grained Visual Categorization, FGVC)是圖片分類的一個分支，因爲類別間的類似性很是大，通常人比較難區分，因此是個頗有研究意義的領域。受神經樹研究的啓發，論文設計告終合注意力卷積的二叉神經樹結構(attention convolutional binary neural tree architecture, ACNet)用於弱監督的細粒度分類，論文的主要貢獻以下：微信

提出結合注意力卷積的二叉神經樹結構ACNet用於細粒度分類，在樹結構的邊上結合了注意力卷積操做，在每一個節點使用路由函數從而定義從根節點到葉子節點的計算路徑，相似於神經網絡。這樣的結構讓算法有相似於神經網絡的表達能力，以及可以從粗到細的層級進行特徵學習，不一樣的分支專一於不一樣的局部區域，最後結合全部葉子節點的預測值進行最終的預測
添加attention transformer模塊來增強網絡獲取關鍵特徵進行準確分類
在三個數據集CUB-200-20十一、Stanford Cars和Aircraft上達到了SOTA

Attention Convolutional Binary Neural Tree

ACNet包含4個模塊，分別是主幹網絡(backbone network)、分支路由(branch routing)、attention transformer和標籤預測(label prediction)，如圖2所示。將ACNet定義爲$(\mathbb{T},\mathbb{O})$，$\mathbb{T}$爲樹狀拓撲結構，$\mathbb{O}$爲樹邊的操做集。論文使用滿二叉樹$\mathbb{T}=\{\mathcal{V},\mathcal{E}\}$，$\mathcal{V}=\{v_1,...,v_n \}$爲節點，$\mathcal{E}=\{e_1,...,e_k \}$爲邊，對於樹深$h$，共$n=2^h-1$節點，$k=2^h-2$邊。每一個節點爲路由模塊，決定下一個計算節點，邊採用attention transformer進行操做。另外，滿二叉樹$\mathbb{T}$採用了非對稱結構，例如左邊使用兩個transformer模塊，右邊使用一個transformer模塊，這樣有利於提取不一樣尺寸的特徵網絡

Architecture

Backbone network module

因爲細粒度類別的關鍵特徵都是高度局部的，須要使用相對較小的感覺域來提取特徵，所以主幹網絡使用截斷的VGG-16網絡，輸入改成$448\times 448$函數

Branch routing module

分支路由用來決定子節點的選擇，結構如圖2b所示，$k$-th層的$i$-th路由模塊$\mathcal{R}_i^k(\cdot)$由$1\times 1$卷積和global context block組成學習

global context block的大概結構如上圖a所示，來自GCNet的論文中。在context modeling和fusion步驟使用了simplified NL block，在transform步驟使用了SE block，這個模塊可以很好地結合上下文信息來提取特徵，最後使用global average pooling、element-wise square-root、L2正則化以及sigmoid激活的全鏈接層輸出標量$[0,1]$
假設分支路由模塊$R_i^k(x_j)$輸出樣本$x_j\in X$到右邊節點的機率爲$\phi_i^k(x_j)\in [0,1]$，則輸出到左邊節點的機率爲$1 - \phi_i^k(x_j)$，機率越大的節點對最終結果的影響越大spa

Attention transformer

Attention transformer模塊用於增強網絡獲取關鍵特徵的能力，在$3\times 3$卷積後面插入結構如圖2c所示的attention模塊，該模塊的旁路輸出一個大小爲$\mathbb{R}^{C\times 1\times 1}$的channel attention map對輸入特徵進行加權設計

Label prediction

對於ACNet的每一個葉子節點，用標籤預測模塊$\mathcal{P}_i$來預測目標$x_j$的類別，$r_i^k(x_j)$爲目標$x_j$從根節點到k層第i個節點的累計機率，預測模塊由$1\times 1$卷積層、max pooling層、L2歸一化層、全鏈接層和softmax層組成，經過求和全部的葉子節點的預測結果和路徑累計機率的乘積獲得最終的預測$\mathcal{C}(x_j)={\sum}_{i=1}^{2^{h-1}}\mathcal{P}_i(x_j)r_i^h(x_j)$3d