momentum、Adagrad、RMSProp、Adam梯度下降總結

Momentum SGD方法中的高方差振盪使得網絡很難穩定收斂,所以有研究者提出了一種稱爲動量(Momentum)的技術,通過優化相關方向的訓練和弱化無關方向的振盪,來加速SGD訓練。換句話說,這種新方法將上個步驟中更新向量的分量’γ’添加到當前更新向量。 V(t)=γV(t−1)+η∇(θ).J(θ) 通過θ=θ−V(t)來更新參數。 動量項γ通常設定爲0.9,或相近的某個值。 這裏的動量與經典
相關文章
相關標籤/搜索