【哈工大版】Dynamic ReLU：自適應參數化ReLU基本原理

時間 2020-05-26

原文原文鏈接

自適應參數化ReLU是一種動態激活函數，對全部輸入不是「一視同仁」，在2019年5月3日投稿至IEEE Transactions on Industrial Electronics，2020年1月24日錄用， 2020年2月13日在IEEE官網公佈。

本文在綜述傳統激活函數和注意力機制的基礎上，解讀了一種注意力機制下的動態激活函數，即自適應參數化修正線性單元（Adaptively Parametric Rectifier Linear Unit，APReLU），但願對你們有所幫助。算法

1. 傳統激活函數是靜態的

激活函數是現代人工神經網絡的重要組成部分，其做用是實現人工神經網絡的非線性化。咱們首先來介紹幾種最多見的激活函數，即Sigmoid激活函數、Tanh激活函數和ReLU激活函數，分別以下圖所示:
網絡

Sigmoid激活函數和Tanh激活函數的梯度取值範圍分別是(0,1)和(-1,1)。當層數較多時，人工神經網絡可能會遭遇梯度消失的問題。ReLU激活函數的梯度要麼是零，要麼是一，可以很好地避免梯度消失和梯度爆炸的問題，所以在近年來獲得了普遍的應用。函數

然而，ReLU激活函數依然存在一點瑕疵。若是在人工神經網絡的訓練過程當中，遇到了特徵所有小於零的狀況，那麼ReLU激活函數的輸出就所有爲零。這個時候就訓練失敗了。爲了不這種狀況，有些學者就提出了leaky ReLU激活函數，不將小於零的特徵置爲零，而是將小於零的特徵乘以一個很小的係數，例如0.1和0.01。學習

在leaky ReLU中，這個係數的取值是人工設置的。可是人工設置的係數未必是最佳的，所以何愷明等人提出了Parametric ReLU激活函數（參數化ReLU激活函數，PReLU激活函數），將這個係數設置爲一個能夠訓練獲得的參數，在人工神經網絡的訓練過程當中和其餘參數一塊兒採用梯度降低法進行訓練。然而，PReLU激活函數有一個特色：一旦訓練過程完成，則PReLU激活函數中的這個係數就變成了固定的值。換言之，對於全部的測試樣本，PReLU激活函數中這個係數的取值是相同的。
測試

到這裏咱們就大概介紹了幾種經常使用的激活函數。這些激活函數有什麼問題呢？咱們能夠思考一下，若是一我的工神經網絡採用上述的某種激活函數，抑或是上述多種激活函數的組合，那麼這我的工神經網絡在訓練完成以後，在被應用於測試樣本時，對所有測試樣本所採用的非線性變換是相同的，也就是靜態的。也就是說，全部的測試樣本，都會經歷相同的非線性變換。這實際上是一種比較呆板的方式。spa

以下圖所示，咱們若是以左邊的散點圖表示原始特徵空間，以右邊的散點圖表示人工神經網絡所學習獲得的高層特徵空間，以散點圖中的小圓點和小方塊表明兩種不一樣類別的樣本，以F、G和H表示非線性函數。那麼這些樣本是經過相同的非線性函數實現原始特徵空間到高層特徵空間的變換的。也就是說，圖片中的「=」意味着，對於這些樣本，它們所經歷的非線性變換是徹底相同的。
3d

那麼，咱們能不能根據每一個樣本的特色，單獨爲每一個樣本設置激活函數的參數、使每一個樣本經歷不一樣的動態非線性變換呢？本文後續所要介紹的APReLU激活函數，就作到了這一點。blog

2. 注意力機制

本文所要介紹的APReLU激活函數借鑑了經典的Squeeze-and-Excitation Network（SENet），而SENet是一種很是經典的、注意力機制下的深度學習方法。SENet的基本原理以下圖所示：
圖片

這裏介紹一下SENet所蘊含的思想。對於許多樣本而言，其特徵圖中的各個特徵通道的重要程度極可能是不一樣的。例如，樣本A的特徵通道1很是重要，特徵通道2不重要；樣本B的特徵通道1不重要，特徵通道2很重要；那麼在這個時候，對於樣本A，咱們就應該把注意力集中在特徵通道1（即賦予特徵通道1更高的權重）；反過來，對於樣本B，咱們應該把注意力集中在特徵通道2（即賦予特徵通道2更高的權重）。ci

爲了實現這個目的，SENet經過一個小型的全鏈接網絡，學習獲得了一組權重係數，對原先特徵圖的各個通道進行加權。經過這種方式，每一個樣本（包括訓練樣本和測試樣本）都有着本身獨特的一組權重，用於自身各個特徵通道的加權。這實際上是一種注意力機制，即注意到重要的特徵通道，進而賦予其較高的權重。

3. 自適應參數化修正線性單元（APReLU）激活函數

APReLU激活函數，在本質上，就是SENet和PReLU激活函數的集成。在SENet中，小型全鏈接網絡所學習獲得的權重，是用於各個特徵通道的加權。APReLU激活函數也經過一個小型的全鏈接網絡得到了權重，進而將這組權重做爲PReLU激活函數裏的係數，即負數部分的權重。APReLU激活函數的基本原理以下圖所示。

咱們能夠看到，在APReLU激活函數中，其非線性變換的函數形式是和PReLU激活函數如出一轍的。惟一的差異在於，APReLU激活函數裏對負數特徵的權重係數，是經過一個小型全鏈接網絡學習獲得的。當人工神經網絡採用APReLU激活函數時，每一個樣本均可以有本身獨特的權重係數，即獨特的非線性變換（以下圖所示）。同時，APReLU激活函數的輸入特徵圖和輸出特徵圖有着相同的尺寸，這意味着APReLU能夠被輕易地嵌入到現有的深度學習算法之中。

綜上所述，APReLU激活函數使每一個樣本均可以有本身獨特的一組非線性變換，提供了一種更靈活的動態非線性變換方式，具備提升模式識別準確率的潛力。

參考文獻：
Zhao M, Zhong S, Fu X, et al. Deep residual networks with adaptively parametric rectifier linear units for fault diagnosis[J]. IEEE Transactions on Industrial Electronics, 2020, DOI: 10.1109/TIE.2020.2972458, Date of Publication: 13 February 2020