深度學習優化函數詳解-- Nesterov accelerated gradient (NAG)

動量法每下降一步都是由前面下降方向的一個累積和當前點的梯度方向組合而成。於是一位大神(Nesterov)就開始思考,既然每一步都要將兩個梯度方向(歷史梯度、當前梯度)做一個合併再下降,那爲什麼不先按照歷史梯度往前走那麼一小步,按照前面一小步位置的「超前梯度」來做梯度合併呢?如此一來,小球就可以先不管三七二十一先往前走一步,在靠前一點的位置看到梯度,然後按照那個位置再來修正這一步的梯度方向。如此一來
相關文章
相關標籤/搜索