前兩篇博客(從貝葉斯角度理解正則化、正則化)分別介紹了提早終止法和正則化法。函數
它們能夠近似等價的嗎?怎麼近似等價?性能
左邊這張圖輪廓線表示負對數似然函數的輪廓,虛線表示從原點開始的SGD所通過的軌跡。提早終止法的軌跡在較早的$\tilde \omega \(點終止,而不是在中止在最小化代價的點\){\omega ^{\text{*}}}$處;
右邊這張圖使用了L2正則化法。虛線圓圈表示L2懲罰的輪廓,L2懲罰使得總代價的最小值比非正則化代價的最小值更靠近原點。
能夠看出,兩種方法近似等價。學習
接下來對二者進行分析。spa
對於上圖所示的單層線性網絡,該線性網絡的均方偏差性能函數時二次的,即:.net
\(F(x) = c + d^{T}x + \frac{1}{2}x^{T}\text{Ax}\)設計
其中,爲Hessian矩陣。3d
① 爲了研究提早終止法性能,咱們將分析最速降低法在線性網絡上的演化。由式10.16知性能指標的梯度:blog
\(\nabla F(x) = Ax + d\)ip
最速降低法:
\(x_{k + 1} = x_{k} - \alpha g_{k} = x_{k} - \alpha(Ax_{k} + d)\)
對於二次性能指標,極小值出如今下面的點:
\(x^{\text{ML}} = - A^{- 1}d\)
上標ML表示結果使似然函數極大化同時使偏差平方和極小化。則
\[{x_{k + 1} = x_{k} - \alpha(Ax_{k} + d)}\\{\text{}= x_{k} - \alpha A(x_{k} + A^{- 1}d)}\\{\text{} = x_{k} - \alpha A(x_{k} + x^{\text{ML}})}\\{\text{} = \left\lbrack I - \text{αA} \right\rbrack x_{k} + \alpha Ax^{\text{ML}}}\\{\text{} = Mx_{k} + \left\lbrack I - M \right\rbrack Ax^{\text{ML}}}\]
其中,\(M = (I - \alpha A)\)。
② 將\(x_{k + 1}\)與初始化權值\(x_{k}\)進行關聯
\(x_{1} = Mx_{0} + \left\lbrack I - M \right\rbrack x^{\text{ML}}\)
\[{x_{2} = Mx_{1} + \left\lbrack I - M \right\rbrack x^{\text{ML}}}\\{\text{} = M(Mx_{0} + \left\lbrack I - M \right\rbrack x^{\text{ML}}) + \left\lbrack I - M \right\rbrack x^{\text{ML}}}\\{\text{} = M^{2}x_{0} + \left\lbrack I - M^{2} \right\rbrack x^{\text{ML}}}\]
遞推能夠得
\(x_{k}\mspace{6mu} = M^{k}x_{0} + \left\lbrack I - M^{k} \right\rbrack x^{\text{ML}}\)
在偏差平方和上加上一個懲罰項做爲正則化性能指標,即:
\[F(x) = \beta E_{D} + \alpha E_{W}\]
等價的性能指標:
\(F^{*}(x) = \frac{F(x)}{\beta} = E_{D} + \frac{\alpha}{\beta}E_{W} = E_{D} + \rho E_{W}\)上式只有一個正則化參數。
權值平方和懲罰項\(E_{W}\)能夠寫爲:
\(E_{W} = (x - x_{0})^{T}(x - x_{0})\)
其梯度爲\(\nabla E_{W} = 2(x - x_{0})\)
偏差平方和的梯度:\(\nabla E_{D} = Ax + d = A(x + A^{- 1}d) = A(x - x^{\text{ML}})\)
爲了尋找正則化性能指標的極小值,同時也是最可能的值\(x^{\text{MP}}\),令梯度爲零。
\(\nabla F^{*}(x) = \nabla E_{D} + \rho\nabla E_{W} = A(x^{\text{MP}} - x^{\text{ML}}) + 2\rho(x^{\text{MP}} - x_{0}) = 0\)
化簡:\((A + 2\rho I)(x^{\text{MP}} - x^{\text{ML}}) = 2\rho(x_{0} - x^{\text{ML}})\)
求解\(x^{\text{MP}} - x^{\text{ML}}\),有
\((x^{\text{MP}} - x^{\text{ML}}) = 2\rho(A + 2\rho I)^{- 1}(x_{0} - x^{\text{ML}})\)
移項:
\[{x^{\text{MP}} = 2\rho(A + 2\rho I)^{- 1}(x_{0} - x^{\text{ML}}) + x^{\text{ML}}}\\{\text{} = M_{P}(x_{0} - x^{\text{ML}}) + x^{\text{ML}}\backslash n}\]
其中,\(M_{P} = 2\rho(A + 2\rho I)^{- 1}\)。
提早終止法的結果代表從初始值到k次迭代後的最大似然權值咱們進步了多少;
正則化法描述了正則化解與偏差平方和極小值之間關係。
兩個解等價\({\leftrightarrow x}_{k} = x^{\text{MP}}\) \({\leftrightarrow M}^{k} = M_{P}\)
\(M\)和\(A\) 具備相同的特徵向量,\(A\)的特徵值爲\(\lambda_{i}\),\(M\)則的特徵值爲\(1 - \alpha\lambda_{i}\)
,則\(M^{k}\)的特徵值爲\(eig(M^{k}) = (1 - \alpha\lambda_{i})^{k}\)
同理,可得\(M_{P}\)的特徵值爲\(eig(M_{P}) = \frac{2\rho}{\lambda_{i} + 2\rho}\)
所以,\(M^{k} = M_{P}\)等價於
\[eig(M^{k}) = (1 - \alpha\lambda_{i})^{k} = \frac{2\rho}{\lambda_{i} + 2\rho} = eig(M_{P})\]
取對數,有:
\(k\log(1 - \alpha\lambda_{i}) = - \log(1 + \frac{\lambda_{i}}{2\rho})\)
爲使上式成立,則\(\lambda_{i} = 0\)。
對等式兩邊求導,有:
\(- \frac{1}{(1 + \frac{\lambda_{i}}{2\rho})}\frac{1}{2\rho} = \frac{k}{1 - \alpha\lambda_{i}}( - \alpha)\)
當\(\alpha\lambda_{i}\)很小(緩慢、穩定的學習)且\(\frac{\lambda_{i}}{2\rho}\)很小,則有近似結果:
\(\text{αk} \cong \frac{1}{2\rho}\)
所以,提早終止法和正則化法近似相等。增長迭代次數\(k\)近似於減小正則化參數\(\rho\)。能夠直觀看出,增長迭代次數或者減小正則化參數都可以引發過擬合。
1.尹恩·古德費洛.深度學習[M].北京:人民郵電出版社,2017.8
2.馬丁 T·哈根,章毅(譯).神經網絡設計[M].北京:機械出版社,2017.12