網絡權重初始化方法總結(下):Lecun、Xavier與He Kaiming

博客:blog.shinelee.me | 博客園 | CSDNgit

權重初始化最佳實踐

前向傳播

反向傳播

書接上回,全0、常數、過大、太小的權重初始化都是很差的,那咱們須要什麼樣的初始化?github

  • 由於對權重\(w\)的大小和正負缺少先驗,因此應初始化在0附近,但不能爲全0或常數,因此要有必定的隨機性,即數學指望\(E(w)=0\)
  • 由於梯度消失和梯度爆炸,權重不易過大或太小,因此要對權重的方差\(Var(w)\)有所控制網絡

  • 深度神經網絡的多層結構中,每一個激活層的輸出對後面的層而言都是輸入,因此咱們但願不一樣激活層輸出的方差相同,即\(Var(a^{[l]})=Var(a^{[l-1]})\),這也就意味不一樣激活層輸入的方差相同,即\(Var(z^{[l]})=Var(z^{[l-1]})\)
  • 若是忽略激活函數,前向傳播和反向傳播能夠當作是權重矩陣(轉置)的連續相乘。數值太大,前向時可能陷入飽和區,反向時可能梯度爆炸,數值過小,反向時可能梯度消失。因此初始化時,權重的數值範圍(方差)應考慮到前向和後向兩個過程app

權重的隨機初始化過程能夠當作是從某個機率分佈隨機採樣的過程,經常使用的分佈有高斯分佈、均勻分佈等,對權重指望和方差的控制可轉化爲機率分佈的參數控制,權重初始化問題也就變成了機率分佈的參數設置問題函數

在上回中,咱們知道反向傳播過程同時受到權重矩陣和激活函數的影響,那麼,在激活函數不一樣以及每層超參數配置不一樣(輸入輸出數量)的狀況下,權重初始化該作怎樣的適配?這裏,將各家的研究成果彙總以下,spa

weight initialization

其中,扇入\(fan\_in\)和扇出\(fan\_out\)分別爲當前全鏈接層的輸入和輸出數量,更準確地說,1個輸出神經元與\(fan\_in\)個輸入神經元有鏈接(the number of connections feeding into the node),1個輸入神經元與\(fan\_out\)個輸出神經元有鏈接(the number of connections flowing out of the node),以下圖所示(來自連接),.net

MW33zn.png

對於卷積層而言,其權重爲\(n\)\(c\times h \times w\)大小的卷積核,則一個輸出神經元與\(c\times h \times w\)個輸入神經元有鏈接,即\(fan\_in = c\times h \times w\),一個輸入神經元與\(n\times h \times w\)個輸出神經元有鏈接,即\(fan\_out=n\times h \times w\)orm

指望與方差的相關性質

接下來,首先回顧一下指望與方差計算的相關性質。blog

對於隨機變量\(X\),其方差可經過下式計算,
\[ Var(X) = E(X^2) - (E(X))^2 \]
若兩個隨機變量\(X\)\(Y\),它們相互獨立,則其協方差爲0,
\[ Cov(X, Y) = 0 \]
進一步可得\(E(XY)=E(X)E(Y)\),推導以下,
\[ \begin{align} Cov(X, Y) &= E((X-E(X))(Y-E(Y))) \\ &= E(XY)-E(X)E(Y) =0 \end{align} \]
兩個獨立隨機變量和的方差,
\[ \begin{aligned} \operatorname{Var}(X+Y) &=E\left((X+Y)^{2}\right)-(E(X+Y))^{2} \\ &=E\left(X^{2}+Y^{2}+2 X Y\right)-(E(X)+E(Y))^{2} \\ &=\left(E\left(X^{2}\right)+E\left(Y^{2}\right)+2 E(X Y)\right)-\left((E(X))^{2}+(E(Y))^{2}+2 E(X) E(Y)\right) \\ &=\left(E\left(X^{2}\right)+E\left(Y^{2}\right)+2 E(X) E(Y)\right)-\left((E(X))^{2}+(E(Y))^{2}+2 E(X) E(Y)\right) \\ &=E\left(X^{2}\right)-(E(X))^{2}+E\left(Y^{2}\right)-(E(Y))^{2} \\ &=\operatorname{Var}(X)+\operatorname{Var}(Y) \end{aligned} \]
兩個獨立隨機變量積的方差,
\[ \begin{aligned} \operatorname{Var}(X Y) &=E\left((X Y)^{2}\right)-(E(X Y))^{2} \\ &=E\left(X^{2}\right) E\left(Y^{2}\right)-(E(X) E(Y))^{2} \\ &=\left(\operatorname{Var}(X)+(E(X))^{2}\right)\left(\operatorname{Var}(Y)+(E(Y))^{2}\right)-(E(X))^{2}(E(Y))^{2} \\ &=\operatorname{Var}(X) \operatorname{Var}(Y)+(E(X))^{2} \operatorname{Var}(Y)+\operatorname{Var}(X)(E(Y))^{2} \end{aligned} \]

全鏈接層方差分析

對線性組合層+非線性激活層,計算以下所示,其中\(z_i^{[l-1]}\)\(l-1\)層第\(i\)個激活函數的輸入,\(a_i^{[l-1]}\)爲其輸出,\(w_{ij}^{[l]}\)爲第\(l\)層第\(i\)個輸出神經元與第\(j\)個輸入神經元鏈接的權重,\(b^{[l]}\)爲偏置,計算方式以下
\[ \begin{align}a_i^{[l-1]} &= f(z_i^{[l-1]}) \\z_i^{[l]} &= \sum_{j=1}^{fan\_in} w_{ij}^{[l]} \ a_j^{[l-1]}+b^{[l]} \\a_i^{[l]} &= f(z_i^{[l]})\end{align} \]
在初始化階段,將每一個權重以及每一個輸入視爲隨機變量,可作以下假設和推斷,

  • 網絡輸入的每一個元素\(x_1, x_2, \dots\)獨立同分布
  • 每層的權重隨機初始化,同層的權重$w_{i1}, w_{i2}, \dots \(**獨立同分布**,且指望\)E(w)=0$;
  • 每層的權重\(w\)和輸入\(a\)隨機初始化且相互獨立,因此二者之積構成的隨機變量\(w_{i1}a_1, w_{i2}a_2, \dots\)亦相互獨立,且同分布;
  • 根據上面的計算公式,同層的\(z_1, z_2, \dots\)獨立同分布,同層的\(a_1, a_2, \dots\)也爲獨立同分布

須要注意的是,上面獨立同分布的假設僅在初始化階段成立,當網絡開始訓練,根據反向傳播公式,權重更新後再也不相互獨立。

在初始化階段,輸入\(a\)與輸出\(z\)方差間的關係以下,令\(b=0\)
\[ \begin{align} Var(z) &=Var(\sum_{j=1}^{fan\_in} w_{ij} \ a_j) \\ &= fan\_in \times (Var(wa)) \\ &= fan\_in \times (Var(w) \ Var(a) + E(w)^2 Var(a) + Var(w) E(a)^2) \\ &= fan\_in \times (Var(w) \ Var(a) + Var(w) E(a)^2) \end{align} \]

tanh下的初始化方法

若激活函數爲線性恆等映射,即\(f(x)=x\),則\(a = z\),天然\(E(a)=E(z)\)\(Var(a) = Var(z)\)

由於網絡輸入的指望\(E(x)=0\),每層權重的指望\(E(w) = 0\),在前面相互獨立的假設下,根據公式\(E(XY)=E(X)E(Y)\),可知\(E(a)=E(z)=\sum E(wa)=\sum E(w)E(a)=0\)。由此可得,
\[ Var(a^{[l]}) = Var(z^{[l]}) = fan\_in \times Var(w) \times Var(a^{[l-1]}) \]
更進一步地,令\(n^{[l]}\)爲第\(l\)層的輸出數量(\(fan\_out\)),則第\(l\)層的輸入數量($fan_in \()即前一層的輸出數量爲\)n^{[l-1]}\(。第\)L$層輸出的方差爲
\[ \begin{align} Var(a^{L}) = Var(z^{[L]}) &= n^{[L-1]} Var(w^{[L]}) Var(a^{[L-1]}) \\ &=\left[\prod_{l=1}^{L} n^{[l-1]} Var(w^{[l]})\right] {Var}(x) \end{align} \]
反向傳播時,須要將上式中的\(n^{[l-1]}\)替換爲\(n^{[l]}\)(即\(fan\_in\)替換爲\(fan\_out\)),同時將\(x\)替換爲損失函數對網絡輸出的偏導。

因此,通過\(t\)層,前向傳播和反向傳播的方差,將分別放大或縮小
\[ \prod^{t} n^{[l-1]} Var(w^{[l]}) \\ \prod^{t} n^{[l]} Var(w^{[l]}) \]
爲了不梯度消失和梯度爆炸,最好保持這個係數爲1。

須要注意的是,上面的結論是在激活函數爲恆等映射的條件下得出的,而tanh激活函數在0附近可近似爲恆等映射,即$tanh(x) \approx x $。

Lecun 1998

Lecun 1998年的paper Efficient BackProp ,在輸入Standardization以及採用tanh激活函數的狀況下,令\(n^{[l-1]}Var(w^{[l]})=1\),即在初始化階段讓前向傳播過程每層方差保持不變,權重從以下高斯分佈採樣,其中第\(l\)層的\(fan\_in = n^{[l-1]}\)
\[ W \sim N(0, \frac{1}{fan\_in}) \]

Xavier 2010

在paper Xavier-2010-Understanding the difficulty of training deep feedforward neural networks中,Xavier和Bengio同時考慮了前向過程和反向過程,使用\(fan\_in\)\(fan\_out\)的平均數對方差進行歸一化,權重從以下高斯分佈中採樣,
\[ W \sim N(0, \frac{2}{fan\_in + fan\_out}) \]
同時文章中還說起了從均勻分佈中初始化的方法,由於均勻分佈的方差與分佈範圍的關係爲
\[ Var(U(-n, n)) = \frac{n^2}{3} \]
若令\(Var(U(-n, n)) = \frac{2}{fan\_in + fan\_out}\),則有
\[ n = \frac{\sqrt{6}}{\sqrt{fan\_in + fan\_out}} \]
即權重也可從以下均勻分佈中採樣,
\[ W \sim U(-\frac{\sqrt{6}}{\sqrt{fan\_in + fan\_out}}, \frac{\sqrt{6}}{\sqrt{fan\_in + fan\_out}}) \]
在使用不一樣激活函數的狀況下,是否使用Xavier初始化方法對test error的影響以下所示,圖例中帶\(N\)的表示使用Xavier初始化方法,Softsign一種爲類tanh可是改善了飽和區的激活函數,圖中能夠明顯看到tanh 和tanh N在test error上的差別。

test error

論文還有更多訓練過程當中的權重和梯度對比圖示,這裏再也不貼出,具體能夠參見論文。

ReLU/PReLU下的初始化方法

搬運一下上面的公式,
\[ Var(z)= fan\_in \times (Var(w) \ Var(a) + Var(w) E(a)^2) \]
由於激活函數tanh在0附近可近似爲恆等映射,因此在初始化階段能夠認爲\(E(a) = 0\),可是對於ReLU激活函數,其輸出均大於等於0,不存在負數,因此\(E(a) = 0\)的假設再也不成立。

activation functions

可是,咱們能夠進一步推導獲得,
\[ \begin{align} Var(z) &= fan\_in \times (Var(w) \ Var(a) + Var(w) E(a)^2) \\ &= fan\_in \times (Var(w) (E(a^2) - E(a)^2)+Var(w)E(a)^2) \\ &= fan\_in \times Var(w) \times E(a^2) \end{align} \]

He 2015 for ReLU

對於某個具體的層\(l\)則有,
\[ Var(z^{[l]}) = fan\_in \times Var(w^{[l]}) \times E((a^{[l-1]})^2) \]
若是假定\(w{[l-1]}\)來自某個關於原點對稱的分佈,由於\(E(w^{[l-1]}) = 0\),且\(b^{[l-1]} = 0\),則能夠認爲\(z^{[l-1]}\)分佈的指望爲0,且關於原點0對稱。

對於一個關於原點0對稱的分佈,通過ReLU後,僅保留大於0的部分,則有
\[ \begin{align}Var(x) &= \int_{-\infty}^{+\infty}(x-0)^2 p(x) dx \\&= 2 \int_{0}^{+\infty}x^2 p(x) dx \\&= 2 E(\max(0, x)^2)\end{align} \]
因此,上式可進一步得出,
\[ \begin {align}Var(z^{[l]}) &= fan\_in \times Var(w^{[l]}) \times E((a^{[l-1]})^2) \\&= \frac{1}{2} \times fan\_in \times Var(w^{[l]}) \times Var(z^{[l-1]}) \end{align} \]
相似地,須要放縮係數爲1,即
\[ \frac{1}{2} \times fan\_in \times Var(w^{[l]}) = 1 \\ Var(w) = \frac{2}{fan\_in} \]
即從前向傳播考慮,每層的權重初始化爲
\[ W \sim N(0, \frac{2}{fan\_in}) \]
同理,從後向傳播考慮,每層的權重初始化爲
\[ W \sim N(0, \frac{2}{fan\_out}) \]
文中提到,單獨使用上面兩個中的哪個均可以,由於當網絡結構肯定以後,二者對方差的放縮係數之比爲常數,即每層扇入扇出之比的連乘,解釋以下,

He initialization

使用Xavier和He初始化,在激活函數爲ReLU的狀況下,test error降低對好比下,22層的網絡,He的初始化降低更快,30層的網絡,Xavier不降低,可是He正常降低。

Xavier vs He

He 2015 for PReLU

對於PReLU激活函數,負向部分爲\(f(x) = ax\),以下右所示,

ReLU and PReLU

對於PReLU,求取\(E((a^{[l-1]})^2)\)可對正向和負向部分分別積分,不可貴出,
\[ \frac{1}{2} (1 + a^2) \times fan\_in \times Var(w^{[l]}) = 1 \\Var(w) = \frac{2}{(1 + a^2) fan\_in} \\W \sim N(0, \frac{2}{(1 + a^2) fan\_in}) \\W \sim N(0, \frac{2}{(1 + a^2) fan\_out}) \]

caffe中的實現

儘管He在paper中說單獨使用\(fan\_in\)\(fan\_out\)哪一個均可以,可是,在Caffe的實現中,仍是提供了二者平均值的方式,以下所示,固然默認是使用\(fan\_in\)

MSRA in Caffe

小結

至此,對深度神經網絡權重初始化方法的介紹已告一段落。雖然由於BN層的提出,權重初始化可能已再也不那麼緊要。可是,對經典權重初始化方法通過一番剖析後,相信對神經網絡運行機制的理解也會更加深入。

以上。

參考

相關文章
相關標籤/搜索