深度學習最優化方法之AdaGrad

總括 首先我們來看一下AdaGrad算法 我們可以看出該優化算法與普通的sgd算法差別就在於標黃的哪部分,採取了累積平方梯度。 簡單來講,設置全局學習率之後,每次通過,全局學習率逐參數的除以歷史梯度平方和的平方根,使得每個參數的學習率不同 作用 那麼它起到的作用是什麼呢? 起到的效果是在參數空間更爲平緩的方向,會取得更大的進步(因爲平緩,所以歷史梯度平方和較小,對應學習下降的幅度較小),並且能夠使
相關文章
相關標籤/搜索