2.2.4 RMSprop

RMSprop 這個算法的全稱是root mean square prop.下面我們來談一下他是如何工作的。 如圖所示,你想減緩b方向的學習率,然後加速w方向的學習率。這裏,所不同的是我們使用 Sdw=βSdw+(1−β)dw2 S d w = β S d w + ( 1 − β ) d w 2 使用微分平方的加權平均數。 另外一個不同是最後w更新學習率的時候變得不同了。 我們來解釋一下這個原理。
相關文章
相關標籤/搜索