梯度優化算法Adam(續)

進一步優化梯度下降 現在我們要討論用於進一步優化梯度下降的各種算法。 1. 動量梯度下降法(Momentum) SGD方法中的高方差振盪使得網絡很難穩定收斂,所以有研究者提出了一種稱爲動量(Momentum)的技術,通過優化相關方向的訓練和弱化無關方向的振盪,來加速SGD訓練。換句話說,這種新方法將上個步驟中更新向量的分量’γ’添加到當前更新向量。 V(t)=γV(t−1)+η∇(θ).J(θ)
相關文章
相關標籤/搜索