提早終止法與正則化法之間關係

時間 2019-11-19

原文原文鏈接

目錄網絡

前言

前兩篇博客（從貝葉斯角度理解正則化、正則化）分別介紹了提早終止法和正則化法。函數

它們能夠近似等價的嗎？怎麼近似等價？性能

左邊這張圖輪廓線表示負對數似然函數的輪廓，虛線表示從原點開始的SGD所通過的軌跡。提早終止法的軌跡在較早的$\tilde \omega $點終止，而不是在中止在最小化代價的點${\omega ^{\text{*}}}$處；
右邊這張圖使用了L2正則化法。虛線圓圈表示L2懲罰的輪廓，L2懲罰使得總代價的最小值比非正則化代價的最小值更靠近原點。
能夠看出，兩種方法近似等價。學習

接下來對二者進行分析。spa

提早終止法分析

對於上圖所示的單層線性網絡，該線性網絡的均方偏差性能函數時二次的，即：.net

$F(x) = c + d^{T}x + \frac{1}{2}x^{T}\text{Ax}$設計

其中，爲Hessian矩陣。3d

① 爲了研究提早終止法性能，咱們將分析最速降低法在線性網絡上的演化。由式10.16知性能指標的梯度：blog

$\nabla F(x) = Ax + d$ip

最速降低法：

$x_{k + 1} = x_{k} - \alpha g_{k} = x_{k} - \alpha(Ax_{k} + d)$

對於二次性能指標，極小值出如今下面的點：

$x^{\text{ML}} = - A^{- 1}d$

上標ML表示結果使似然函數極大化同時使偏差平方和極小化。則

\[{x_{k + 1} = x_{k} - \alpha(Ax_{k} + d)}\\{\text{}= x_{k} - \alpha A(x_{k} + A^{- 1}d)}\\{\text{} = x_{k} - \alpha A(x_{k} + x^{\text{ML}})}\\{\text{} = \left\lbrack I - \text{αA} \right\rbrack x_{k} + \alpha Ax^{\text{ML}}}\\{\text{} = Mx_{k} + \left\lbrack I - M \right\rbrack Ax^{\text{ML}}}\]

其中，$M = (I - \alpha A)$。

② 將$x_{k + 1}$與初始化權值$x_{k}$進行關聯

$x_{1} = Mx_{0} + \left\lbrack I - M \right\rbrack x^{\text{ML}}$

\[{x_{2} = Mx_{1} + \left\lbrack I - M \right\rbrack x^{\text{ML}}}\\{\text{} = M(Mx_{0} + \left\lbrack I - M \right\rbrack x^{\text{ML}}) + \left\lbrack I - M \right\rbrack x^{\text{ML}}}\\{\text{} = M^{2}x_{0} + \left\lbrack I - M^{2} \right\rbrack x^{\text{ML}}}\]

遞推能夠得

$x_{k}\mspace{6mu} = M^{k}x_{0} + \left\lbrack I - M^{k} \right\rbrack x^{\text{ML}}$

貝葉斯正則化法分析

在偏差平方和上加上一個懲罰項做爲正則化性能指標，即：

\[F(x) = \beta E_{D} + \alpha E_{W}\]

等價的性能指標：

$F^{*}(x) = \frac{F(x)}{\beta} = E_{D} + \frac{\alpha}{\beta}E_{W} = E_{D} + \rho E_{W}$上式只有一個正則化參數。

權值平方和懲罰項$E_{W}$能夠寫爲：

$E_{W} = (x - x_{0})^{T}(x - x_{0})$

其梯度爲$\nabla E_{W} = 2(x - x_{0})$

偏差平方和的梯度：$\nabla E_{D} = Ax + d = A(x + A^{- 1}d) = A(x - x^{\text{ML}})$

爲了尋找正則化性能指標的極小值，同時也是最可能的值$x^{\text{MP}}$，令梯度爲零。

$\nabla F^{*}(x) = \nabla E_{D} + \rho\nabla E_{W} = A(x^{\text{MP}} - x^{\text{ML}}) + 2\rho(x^{\text{MP}} - x_{0}) = 0$

化簡：$(A + 2\rho I)(x^{\text{MP}} - x^{\text{ML}}) = 2\rho(x_{0} - x^{\text{ML}})$

求解$x^{\text{MP}} - x^{\text{ML}}$，有

$(x^{\text{MP}} - x^{\text{ML}}) = 2\rho(A + 2\rho I)^{- 1}(x_{0} - x^{\text{ML}})$

移項：

\[{x^{\text{MP}} = 2\rho(A + 2\rho I)^{- 1}(x_{0} - x^{\text{ML}}) + x^{\text{ML}}}\\{\text{} = M_{P}(x_{0} - x^{\text{ML}}) + x^{\text{ML}}\backslash n}\]

其中，$M_{P} = 2\rho(A + 2\rho I)^{- 1}$。