深度學習中的優化(動量,RMSProp等算法)

1. 動量 1.      動量 使用了動量以後。假如梯度一直都是g,那麼會一直在-g上不停加速,直到達到最終速度,其中步長變爲,如當a=0.9時對應最大速度十倍於梯度下降算法。實際中,一開始是一個較小的值。            同時,使用動量以後,會累積之前的梯度,假如梯度發生震盪,v受到的影響可以減小。可參考吳恩達視頻中關於動量的解釋。 2.      Nesterov動量 與1中的動量相比
相關文章
相關標籤/搜索