人工智障學習筆記——梯度下降(2)優化算法

四、優化 4-1 Momentum 如果我們把梯度下降法當作小球從山坡到山谷的一個過程,那麼在小球滾動時是帶有一定的初速度,在下落過程,小球積累的動能越來越大,小球的速度也會越滾越大,更快的奔向谷底,受此啓發就有了動量法 Momentum。 動量的引入是爲了加速SGD的優化過程。分析上式就會明白動量的作用原理:利用慣性,即當前梯度與上次梯度進行加權,如果方向一致,則累加導致更新步長變大;如果方向不
相關文章
相關標籤/搜索