優化算法

AdaGrad 針對簡單的SGD及Momentum存在的問題,2011年John Duchi等發佈了AdaGrad優化算法(Adaptive Gradient,自適應梯度),它能夠對每個不同的參數調整不同的學習率,對頻繁變化的參數以更小的步長進行更新,而稀疏的參數以更大的步長進行更新。 其中,gt表示第t時間步的梯度(向量,包含各個參數對應的偏導數,gt,i表示第i個參數t時刻偏導數) gt2表示
相關文章
相關標籤/搜索