深度學習筆記:優化方法總結(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)

  標準梯度下降法: 彙總所有樣本的總誤差,然後根據總誤差更新權值   SGD隨機梯度下降: mini  batch代替全部樣本 曲面的某個方向更加陡峭的時候會被困住 Xt+1=Xt-α Δf(x1) 隨機抽取一個樣本誤差,然後更新權值 (每個樣本都更新一次權值,可能造成的誤差比較大)   批量梯度下降法:相當於前兩種的折中方案,抽取一個批次的樣本計算總誤差,比如總樣本有10000個,可以抽取10
相關文章
相關標籤/搜索