2.2.4 RMSprop

時間 2021-01-14

原文原文鏈接

RMSprop 這個算法的全稱是root mean square prop.下面我們來談一下他是如何工作的。如圖所示，你想減緩b方向的學習率，然後加速w方向的學習率。這裏，所不同的是我們使用 Sdw=βSdw+(1−β)dw2 S d w = β S d w + ( 1 − β ) d w 2 使用微分平方的加權平均數。另外一個不同是最後w更新學習率的時候變得不同了。我們來解釋一下這個原理。