簡單解釋Momentum,RMSprop,Adam優化算法

咱們初學的算法通常都是從SGD入門的,參數更新是:算法

 
 

它的梯度路線爲:網絡

 
 

可是能夠看出它的上下波動很大,收斂的速度很慢。所以根據這些緣由,有人提出了Momentum優化算法,這個是基於SGD的,簡單理解,就是爲了防止波動,取前幾回波動的平均值當作此次的W。這個就用到理論的計算梯度的指數加權平均數,引進超參數beta(通常取0.9):學習

beta和1-beta分別表明以前的dW權重和如今的權重。優化

效果圖以下(紅色):3d

 
 

下面繼續另外一種加速降低的一個算法RMSprop,全稱root mean square prop。也用到權重超參數beta(通常取0.999),和Momentum類似:orm

 
 

其中dW的平方是(dW)^2,db的平方是(db)^2。若是嚴謹些,防止分母爲0,在分數下加上個特別小的一個值epsilon,一般取10^-8。blog

效果圖以下(綠色):深度學習

 
 

研究者們其實提出了不少的優化算法,能夠解決一些問題,可是很難擴展到多種神經網絡。而Momentum,RMSprop是很長時間來最經得住考研的優化算法,適合用於不一樣的深度學習結構。因此有人就有想法,何不將這倆的方法結合到一塊兒呢?而後,pia ji一下,Adam問世了。全程Adaptive Moment Estimation。算法中一般beta_1=0.9,beta_2=0.999。io

算法爲(很明顯看出是二者的結合,其中多了一步V和S的調節,t爲迭代次數,除以1-beta^t表示越近的重要,越遠的就能夠忽視):入門

 
 

由於Adam結合上述兩種優化算法的優勢於一身,因此如今常常用的是Adam優化算法。

相關文章
相關標籤/搜索