深度學習優化入門:Momentum、RMSProp 和 Adam

雖然局部極小值和鞍點會阻礙咱們的訓練,但病態曲率會減慢訓練的速度,以致於從事機器學習的人可能會認爲搜索已經收斂到一個次優的極小值。讓咱們深刻了解什麼是病態曲率。機器學習

病態曲率函數

考慮如下損失曲線圖。學習

 

image

如你所知,咱們在進入一個以藍色爲標誌的像溝同樣的區域以前是隨機的。這些顏色實際上表明瞭在特定點上的損失函數的值,紅色表明最高的值,藍色表明最低的值。優化

咱們想要降低到最低點,所以,須要穿過峽谷。這個區域就是所謂的病態曲率。爲了瞭解爲什麼將其稱爲病態曲率,讓咱們再深刻研究。放大了看,病態曲率就像這樣...blog

 

image

病態曲率搜索

要知道這裏發生的事情並不難。梯度降低沿着峽谷的山脊反彈,向最小的方向移動的速度很是慢。這是由於山脊的曲線在 W1 方向上彎曲的更陡。im

考慮山脊表面的 A 點。咱們看到,梯度在這點能夠分解爲兩個份量,一個沿着 W1 方向,另一個沿着 W2 方向。若是 f 顯著降低的惟一方向是低曲率的,那麼優化可能會變得太慢而不切實際,甚至看起來徹底中止,形成局部最小值的假象。img

相關文章
相關標籤/搜索