提早終止法與正則化法之間關係

前言


前兩篇博客(從貝葉斯角度理解正則化正則化)分別介紹了提早終止法和正則化法。函數

Snipaste_2019-11-19_18-36-48.png

它們能夠近似等價的嗎?怎麼近似等價?性能

20191109213126.png

左邊這張圖輪廓線表示負對數似然函數的輪廓,虛線表示從原點開始的SGD所通過的軌跡。提早終止法的軌跡在較早的$\tilde \omega \(點終止,而不是在中止在最小化代價的點\){\omega ^{\text{*}}}$處;
右邊這張圖使用了L2正則化法。虛線圓圈表示L2懲罰的輪廓,L2懲罰使得總代價的最小值比非正則化代價的最小值更靠近原點。
能夠看出,兩種方法近似等價。學習

接下來對二者進行分析。spa

提早終止法分析


新文檔 2019-11-09 17.19.43.jpg

對於上圖所示的單層線性網絡,該線性網絡的均方偏差性能函數時二次的,即:.net

\(F(x) = c + d^{T}x + \frac{1}{2}x^{T}\text{Ax}\)設計

其中,爲Hessian矩陣。3d

① 爲了研究提早終止法性能,咱們將分析最速降低法在線性網絡上的演化。由式10.16知性能指標的梯度:blog

\(\nabla F(x) = Ax + d\)ip

最速降低法:

\(x_{k + 1} = x_{k} - \alpha g_{k} = x_{k} - \alpha(Ax_{k} + d)\)

對於二次性能指標,極小值出如今下面的點:

\(x^{\text{ML}} = - A^{- 1}d\)

上標ML表示結果使似然函數極大化同時使偏差平方和極小化。則

\[{x_{k + 1} = x_{k} - \alpha(Ax_{k} + d)}\\{\text{}= x_{k} - \alpha A(x_{k} + A^{- 1}d)}\\{\text{} = x_{k} - \alpha A(x_{k} + x^{\text{ML}})}\\{\text{} = \left\lbrack I - \text{αA} \right\rbrack x_{k} + \alpha Ax^{\text{ML}}}\\{\text{} = Mx_{k} + \left\lbrack I - M \right\rbrack Ax^{\text{ML}}}\]

其中,\(M = (I - \alpha A)\)

② 將\(x_{k + 1}\)與初始化權值\(x_{k}\)進行關聯

\(x_{1} = Mx_{0} + \left\lbrack I - M \right\rbrack x^{\text{ML}}\)

\[{x_{2} = Mx_{1} + \left\lbrack I - M \right\rbrack x^{\text{ML}}}\\{\text{} = M(Mx_{0} + \left\lbrack I - M \right\rbrack x^{\text{ML}}) + \left\lbrack I - M \right\rbrack x^{\text{ML}}}\\{\text{} = M^{2}x_{0} + \left\lbrack I - M^{2} \right\rbrack x^{\text{ML}}}\]

遞推能夠得

\(x_{k}\mspace{6mu} = M^{k}x_{0} + \left\lbrack I - M^{k} \right\rbrack x^{\text{ML}}\)

貝葉斯正則化法分析

在偏差平方和上加上一個懲罰項做爲正則化性能指標,即:

\[F(x) = \beta E_{D} + \alpha E_{W}\]

等價的性能指標:

\(F^{*}(x) = \frac{F(x)}{\beta} = E_{D} + \frac{\alpha}{\beta}E_{W} = E_{D} + \rho E_{W}\)上式只有一個正則化參數。

權值平方和懲罰項\(E_{W}\)能夠寫爲:

\(E_{W} = (x - x_{0})^{T}(x - x_{0})\)

其梯度爲\(\nabla E_{W} = 2(x - x_{0})\)

偏差平方和的梯度:\(\nabla E_{D} = Ax + d = A(x + A^{- 1}d) = A(x - x^{\text{ML}})\)

爲了尋找正則化性能指標的極小值,同時也是最可能的值\(x^{\text{MP}}\),令梯度爲零。

\(\nabla F^{*}(x) = \nabla E_{D} + \rho\nabla E_{W} = A(x^{\text{MP}} - x^{\text{ML}}) + 2\rho(x^{\text{MP}} - x_{0}) = 0\)

化簡:\((A + 2\rho I)(x^{\text{MP}} - x^{\text{ML}}) = 2\rho(x_{0} - x^{\text{ML}})\)

求解\(x^{\text{MP}} - x^{\text{ML}}\),有

\((x^{\text{MP}} - x^{\text{ML}}) = 2\rho(A + 2\rho I)^{- 1}(x_{0} - x^{\text{ML}})\)

移項:

\[{x^{\text{MP}} = 2\rho(A + 2\rho I)^{- 1}(x_{0} - x^{\text{ML}}) + x^{\text{ML}}}\\{\text{} = M_{P}(x_{0} - x^{\text{ML}}) + x^{\text{ML}}\backslash n}\]

其中,\(M_{P} = 2\rho(A + 2\rho I)^{- 1}\)

比較


提早終止法的結果代表從初始值到k次迭代後的最大似然權值咱們進步了多少;
正則化法描述了正則化解與偏差平方和極小值之間關係。

Snipaste_2019-11-19_18-38-43.png

兩個解等價\({\leftrightarrow x}_{k} = x^{\text{MP}}\) \({\leftrightarrow M}^{k} = M_{P}\)

\(M\)\(A\) 具備相同的特徵向量,\(A\)的特徵值爲\(\lambda_{i}\)\(M\)則的特徵值爲\(1 - \alpha\lambda_{i}\)

,則\(M^{k}\)的特徵值爲\(eig(M^{k}) = (1 - \alpha\lambda_{i})^{k}\)

同理,可得\(M_{P}\)的特徵值爲\(eig(M_{P}) = \frac{2\rho}{\lambda_{i} + 2\rho}\)

所以,\(M^{k} = M_{P}\)等價於

\[eig(M^{k}) = (1 - \alpha\lambda_{i})^{k} = \frac{2\rho}{\lambda_{i} + 2\rho} = eig(M_{P})\]

取對數,有:

\(k\log(1 - \alpha\lambda_{i}) = - \log(1 + \frac{\lambda_{i}}{2\rho})\)

爲使上式成立,則\(\lambda_{i} = 0\)

對等式兩邊求導,有:

\(- \frac{1}{(1 + \frac{\lambda_{i}}{2\rho})}\frac{1}{2\rho} = \frac{k}{1 - \alpha\lambda_{i}}( - \alpha)\)

\(\alpha\lambda_{i}\)很小(緩慢、穩定的學習)且\(\frac{\lambda_{i}}{2\rho}\)很小,則有近似結果:

\(\text{αk} \cong \frac{1}{2\rho}\)

所以,提早終止法和正則化法近似相等。增長迭代次數\(k\)近似於減小正則化參數\(\rho\)。能夠直觀看出,增長迭代次數或者減小正則化參數都可以引發過擬合。

參考資料


1.尹恩·古德費洛.深度學習[M].北京:人民郵電出版社,2017.8

2.馬丁 T·哈根,章毅(譯).神經網絡設計[M].北京:機械出版社,2017.12

相關文章
相關標籤/搜索