梯度下降與海森矩陣

理一理基礎優化理論,解釋一下深度學習中的一階梯度下降遇到的病態曲率(pathological curvature)問題。當海森矩陣condition number很大時,一階梯度下降收斂很慢,無論是對鞍點還是局部極值點而言都不是個好事。 鞍點 $f'(x)=0$時函數不一定抵達局部最優解,還可能是鞍點(見上圖),此時還必須根據二階導數確定。 $f'(x)$ $f''(x)$ $f(x)$ $f'(
相關文章
相關標籤/搜索