神經網絡中的激活函數tanh sigmoid RELU softplus softmatx

時間 2019-12-14

標籤神經網絡激活函數 tanh sigmoid relu softplus softmatx 简体版

原文原文鏈接

所謂激活函數，就是在神經網絡的神經元上運行的函數，負責將神經元的輸入映射到輸出端。常見的激活函數包括Sigmoid、TanHyperbolic(tanh)、ReLu、 softplus以及softmax函數。這些函數有一個共同的特色那就是他們都是非線性的函數。那麼咱們爲何要在神經網絡中引入非線性的激活函數呢？引用https://www.zhihu.com/question/29021768的解釋就是：html

若是不用激勵函數（其實至關於激勵函數是f(x) = x），在這種狀況下你每一層輸出都是上層輸入的線性函數，很容易驗證，不管你神經網絡有多少層，輸出都是輸入的線性組合，與沒有隱藏層效果至關，這種狀況就是最原始的感知機（Perceptron）了。
正由於上面的緣由，咱們決定引入非線性函數做爲激勵函數，這樣深層神經網絡就有意義了（再也不是輸入的線性組合，能夠逼近任意函數）。最先的想法是sigmoid函數或者tanh函數，輸出有界，很容易充當下一層輸入（以及一些人的生物解釋balabala）。網絡

　　因而可知，激活函數對神經網絡的深層抽象功能有着極其重要的意義。下面分別對上述激活函數進行說明：函數

Sigmoid函數

　　Sigmoid函數的表達式爲學習

TanHyperbolic(tanh)函數

　　TanHyperbolic(tanh)函數又稱做雙曲正切函數，數學表達式爲atom

ReLu函數和softplus函數

　　ReLu函數的全稱爲Rectified Linear Units，函數表達式爲spa

第一，採用sigmoid等函數，算激活函數時（指數運算），計算量大，反向傳播求偏差梯度時，求導涉及除法，計算量相對大，而採用Relu激活函數，整個過程的計算量節省不少。
第二，對於深層網絡，sigmoid函數反向傳播時，很容易就會出現梯度消失的狀況（在sigmoid接近飽和區時，變換太緩慢，導數趨於0，這種狀況會形成信息丟失），從而沒法完成深層網絡的訓練。
第三，Relu會使一部分神經元的輸出爲0，這樣就形成了網絡的稀疏性，而且減小了參數的相互依存關係，緩解了過擬合問題的發生（以及一些人的生物解釋balabala）。htm

若是想要了解更多的話，http://www.cnblogs.com/neopenx/p/4453161.html對softplus進行了詳細的介紹，這裏再也不贅述。blog