參數更新的方式(優化方式)

SGD是實際方法中收斂最慢的。(直接根據梯度矯正W,因爲水平方向梯度很小,垂直方向梯度很大,所以會出現如下圖的波動方式)   補救上面的一種方式是動量更新(momentum)。(可以理解爲在淺的方向上加快收斂,在深得方向上來回擺動) 在上面的基礎上,另外一種更新方式  Nesterov Momentum  然後就是AdaGrad updata,這種方法可以理解爲,垂直方向梯度大的時候,cache就
相關文章
相關標籤/搜索