Inception系列之Inception_v2-v3

時間 2020-12-13

標籤 html git 網絡函數性能學習設計 orm htm blog 欄目 HTML 简体版

原文原文鏈接

引言：網絡

Inception_v2和Inception_v3是在同一篇論文中，提出BN的論文並非Inception_v2。二者的區別在於《Rethinking the Inception Architecture for Computer Vision》這篇論文裏提到了多種設計和改進技術，使用其中某部分結構和改進技術的是Inception_v2, 所有使用了的是Inception_v3。函數

模型設計原則性能

Inception_v1結構因爲比較複雜，很難在其基礎上有所改變，若是隨意更改其結構，則很容易直接喪失一部分計算收益。同時，Inception_v1論文中沒有詳細各個決策設計的因素的描述，這使得它很難去簡單調整以便適應一些新的應用。爲此，Inception_v2論文裏詳細介紹了以下的設計基本原則，並基於這些原則提出了一些新的結構。學習

1.避免表示瓶頸，特別是在網絡的淺層。一個前向網絡每層表示的尺寸應該是從輸入到輸出逐漸變小的。（當尺寸不是這種變化時就會出現瓶頸）設計

2.高維度的表示很容易在網絡中處理，增長激活函數的次數會更容易解析特徵，也會使網絡訓練的更快。（這條原則的意思是表示維度越高，越適合用網絡來處理，像二維平面上的數據分類反而就不適合用網絡來處理，增長激活函數的次數會使得網絡更容易學到其表示特徵）orm

3. 能夠在較低維的嵌入上進行空間聚合，而不會損失不少表示能力。例如，在執行更分散（例如3×3）的卷積以前，能夠在空間彙集以前（淺層）減少輸入表示的尺寸，而不會出現嚴重的不利影響。咱們假設這樣作的緣由是，若是在空間聚合環境中（中高層）使用輸出，則相鄰單元之間的強相關性會致使在尺寸縮減期間信息損失少得多。鑑於這些信號應易於壓縮，所以減少尺寸甚至能夠促進更快的學習。htm

4. 平衡網絡的寬度和深度。經過平衡每一個階段的濾波器數量和網絡深度，能夠達到網絡的最佳性能。增長網絡的寬度和深度能夠有助於提升網絡質量。可是，若是並行增長二者，則能夠達到恆定計算量的最佳改進。所以，應在網絡的深度和寬度之間以平衡的方式分配計算預算。blog

一些特殊的結構

01　　卷積分解

一個5x5的卷積核可經過兩個連續的3x3卷積核來代替,其中第一個是正常的3x3卷積，第二個卷積是在上一層3x3卷積的基礎上進行全鏈接。這樣作的好處是既實現了5x5卷積該有的感覺野，又實現了更小的參數2x9/25，大概縮小了28%。具體以下左圖fig1所示。更進一步，採用非對稱分解，將一個3x3的卷積分解爲3x1和1x3。具體以下右圖fig2.

所以原來的Inception結構（左圖fig3）就能夠變成以下所示的結構（中圖fig5）和（右圖fig6）。

最終還衍生出了以下圖所示（fig7）一種混合兩種分解方式的結構。

在實際應用中，使用這樣的分解結構在網絡低層的效果並很差。它在中等尺寸大小（mxm的feature map 其中m在12到20範圍內）的層中會有比較好的效果。這是考慮到第二條原則，這樣的Inception結構將會放在網絡中間層，而在網絡低層仍然使用通常卷積網絡的結構。

02　　輔助分類器的效用

輔助分類器在訓練的前期並無起什麼做用，到了訓練的後期纔開始在精度上超過沒有輔助分類器的網絡，並達到稍微高的平穩期。而且，在去除這兩個輔助分類器後並無不利的影響，所以在Inception_v1中提到的幫助低層網絡更快訓練的觀點是有問題的。若是這兩個分支有BN或Dropout，主分類器的效果會更好，這是BN可充當正則化器的一個微弱證據。

03　　高效下降Grid Size

關於下降Grid Size大小的方式，有如上圖所示兩種作法。左邊這種違背了第一條原則，即尺寸應該逐層遞減，不然會出現bottleneck。右圖符合第一條原則，然而這樣參數量巨大。爲此做者提出了一種以下圖（fig10）所示的新方式。即並行操做，利用步長都爲2的卷積和池化操做，在不違背第一條原則的基礎上實現下降Grid Size。

完整的Inception_v2結構圖以下：

整個結構中都沒有用到padding, 提出的fig10結構用在了中間每一個Inception模塊之間。

經過標籤平滑化的模型正則化

若是模型在訓練過程當中學習使得所有機率值給ground truth標籤，或者使得最大的Logit輸出值與其餘的值差異儘量地大，直觀來講就是模型預測的時候更自信，這樣將會出現過擬合，不能保證泛化能力。所以標籤平滑化頗有必要。

前面的δk,y 是狄拉克函數，即類別k = y，即爲1，不然爲0。本來的標籤向量q(k|x) = δk,y。而標籤平滑化後的標籤向量變爲以下公式。

這裏的∈爲超參數，u(k)取1/k，k表示類別數。即新的標籤向量(假定是三分類)將變爲(∈/3, ∈/3, 1-2∈/3 )，而原來的標籤向量是（0，0，1）。

結論

實際效果如圖所示，在這裏說明Inception_v2與Inception_v3的區別，Inception_v2指的是使用了Label Smoothing 或BN-auxiliary或RMSProp或Factorized技術中的一種或多種的Inception模塊。而Inception_v3指的是這些技術全用了的Inception模塊。

若有錯誤或不合理之處，歡迎在評論中指正。

歡迎關注公衆號「CV技術指南」，主要進行計算機視覺方向的論文解讀，最新技術跟蹤，以及CV技術的總結。