亞馬遜：用CNN進行圖像分類的Tricks

時間 2019-11-12

標籤亞馬遜 cnn 進行圖像分類 tricks 简体版

原文原文鏈接

自 2012 年 AlexNet 大展神威以來，研究者已經提出了各類卷積架構，包括 VGG、NiN、Inception、ResNet、DenseNet 和 NASNet 等，咱們會發現模型的準確率正穩定提高。網絡

可是如今這些提高並不只僅來源於架構的修正，還來源於訓練過程的改進：包括損失函數的優化、數據預處理方法的提煉和最優化方法的提高等。在過去幾年中，卷積網絡與圖像分割出現大量的改進，但大多數在文獻中只做爲實現細節而簡要說起，而其它還有一些技巧甚至只能在源代碼中找到。架構

在這篇論文中，李沐等研究者研究了一系列訓練過程和模型架構的改進方法。這些方法都能提高模型的準確率，且幾乎不增長任何計算複雜度。它們大多數都是次要的「技巧」，例如修正卷積步幅大小或調整學習率策略等。總的來講，採用這些技巧會產生很大的不一樣。所以研究者但願在多個神經網絡架構和數據集上評估它們，並研究它們對最終模型準確率的影響。函數

研究者的實驗代表，一些技巧能夠顯著提高準確率，且將它們組合在一塊兒能進一步提高模型的準確率。研究者還對比了基線 ResNet 、加了各類技巧的 ResNet、以及其它相關的神經網絡，下表 1 展現了全部的準確率對比。這些技巧將 ResNet50 的 Top-1 驗證準確率從 75.3％提升到 79.29％，還優於其餘更新和改進的網絡架構。此外，研究者還表示這些技巧不少均可以遷移到其它領域和數據集，例如目標檢測和語義分割等。性能

論文：Bag of Tricks for Image Classification with Convolutional Neural Networks學習

論文地址：https://arxiv.org/pdf/1812.01187.pdf測試

摘要：圖像分類研究近期的多數進展均可以歸功於訓練過程的調整，例如數據加強和優化方法的變化。然而，在這些文獻中，大多數微調方法要麼被簡單地做爲實現細節，或僅能在源代碼中看到。在本文中，咱們將測試一系列的微調方法，並經過控制變量實驗評估它們對最終準確率的影響。咱們將展現經過組合不一樣的微調方法，咱們能夠顯著地改善多種 CNN 模型。例如，咱們將 ImageNet 上訓練的 ResNet-50 的 top-1 驗證準確率從 75.3% 提高到 79.29。本研究還代表，圖像分類準確率的提升能夠在其餘應用領域（如目標檢測和語義分割）中實現更好的遷移學習性能。優化

2 訓練過程圖片

目前咱們基本上都用小批量 SGD 或其變體訓練神經網絡，Algorithm 1 展現了 SGD 的模版過程（感興趣的讀者能夠查閱原論文）。利用普遍使用的 ResNet 實現做爲咱們的基線，訓練過程主要分爲如下六個步驟：input

隨機採樣一張圖片，並解碼爲 32 位的原始像素浮點值，每個像素值的取值範圍爲 [0, 255]。it

隨機以 [3/4, 4/3] 爲長寬比、[8%, 100%] 爲比例裁減矩形區域，而後再縮放爲 224*224 的方圖。

以 0.5 的機率隨機水平翻轉圖像。

從均勻分佈 [0.6, 1.4] 中抽取係數，並用於縮放色調和明亮度等。

從正態分佈 N (0, 0.1) 中採樣一個係數，以添加 PCA 噪聲。

圖像分別經過減去（123.68, 116.779, 103.939），併除以（58.393, 57.12, 57.375）而得到經歸一化的 RGB 三通道。

通過六步後就能夠訓練並驗證了，如下展現了基線模型的準確率：

表 2：文獻中實現的驗證準確率與咱們基線模型的驗證準確率，注意 Inception V3 的輸入圖像大小是 299*299。

3 高效訓練

隨着 GPU 等硬件的流行，不少與性能相關的權衡取捨或最優選擇都已經發生了改變。在這一章節中，咱們研究了能利用低精度和大批量訓練優點的多種技術，它們都不會損害模型的準確率，甚至有一些技術還能同時提高準確率與訓練速度。

3.1 大批量訓練

對於凸優化問題，隨着批量的增長，收斂速度會下降。人們已經知道神經網絡會有相似的實證結果 [25]。換句話說，對於相同數量的 epoch，大批量訓練的模型與使用較小批量訓練的模型相比，驗證準確率會下降。所以有不少方法與技巧都旨在解決這個問題：

線性擴展學習率：較大的批量會減小梯度的噪聲，從而能夠增長學習率來加快收斂。

學習率預熱：在預熱這一啓發式方法中，咱們在最初使用較小的學習率，而後在訓練過程變得穩定時換回初始學習率。

Zero γ：注意 ResNet 塊的最後一層能夠是批歸一化層（BN）。在 zero γ啓發式方法中，咱們對全部殘差塊末端的 BN 層初始化γ=0。所以，全部的殘差塊僅返回輸入值，這至關於網絡擁有更少的層，在初始階段更容易訓練。

無偏衰減：無偏衰減啓發式方法僅應用權重衰減到卷積層和全鏈接層的權重，其它如 BN 中的γ和β都不進行衰減。

表 4：ResNet-50 上每種有效訓練啓發式的準確率效果。

3.2 低精度訓練

然而，新硬件可能具備加強的算術邏輯單元以用於較低精度的數據類型。儘管具有性能優點，可是精度下降具備較窄的取值範圍，所以有可能出現超出範圍而擾亂訓練進度的狀況。

表 3：ResNet-50 在基線（BS = 256 與 FP32）和更高效硬件設置（BS = 1024 與 FP16）之間的訓練時間和驗證準確率的比較。

4 模型變體

咱們將簡要介紹 ResNet 架構，特別是與模型變體調整相關的模塊。ResNet 網絡由一個輸入主幹、四個後續階段和一個最終輸出層組成，如圖 1 所示。輸入主幹有一個 7×7 卷積，輸出通道有 64 個，步幅爲 2，接着是 3 ×3 最大池化層，步幅爲 2。輸入主幹（input stem）將輸入寬度和高度減少 4 倍，並將其通道尺寸增長到 64。

從階段 2 開始，每一個階段從下采樣塊開始，而後是幾個殘差塊。在下采樣塊中，存在路徑 A 和路徑 B。路徑 A 具備三個卷積，其卷積核大小分別爲 1×一、3×3 和 1×1。第一個卷積的步幅爲 2，以將輸入長度和寬度減半，最後一個卷積的輸出通道比前兩個大 4 倍，稱爲瓶頸結構。路徑 B 使用步長爲 2 的 1×1 卷積將輸入形狀變換爲路徑 A 的輸出形狀，所以咱們能夠對兩個路徑的輸出求和以得到下采樣塊的輸出。殘差塊相似於下采樣塊，除了僅使用步幅爲 1 的卷積。

咱們能夠改變每一個階段中殘差塊的數量以得到不一樣的 ResNet 模型，例如 ResNet-50 和 ResNet-152，其中的數字表示網絡中卷積層的數量。

圖 1：ResNet-50 的架構。圖中說明了卷積層的卷積核大小、輸出通道大小和步幅大小（默認值爲 1），池化層也相似。

圖 2：三個 ResNet 變體。ResNet-B 修改 ResNet 的下采樣模塊。ResNet-C 進一步修改輸入主幹。在此基礎上，ResNet-D 再次修改了下采樣塊。

表 5：將 ResNet-50 與三種模型變體進行模型大小（參數數量）、FLOPs 和 ImageNet 驗證準確率（top-一、top-5）的比較。

5 訓練方法改進

5.1 餘弦學習率衰減

Loshchilov 等人 [18] 提出餘弦退火策略，其簡化版本是按照餘弦函數將學習速率從初始值下降到 0。假設批次總數爲 T（忽略預熱階段），而後在批次 t，學習率η_t 計算以下：

其中η是初始學習率，咱們將此方案稱爲「餘弦」衰減。

圖 3：可視化帶有預熱方案的學習率變化。頂部：批量大小爲 1024 的餘弦衰減和按迭代步衰減方案。底部：關於兩個方案的 top-1 驗證準確率曲線。

5.2 標籤平滑

標籤平滑的想法首先被提出用於訓練 Inception-v2 [26]。它將真實機率的構造改爲：

其中ε是一個小常數，K 是標籤總數量。