深度學習各種優化器簡介

深度學習中的優化器的思想來源基本上都是梯度下降(Gradient Descent) 根據以上框架,我們來分析和比較梯度下降的各種變種算法。 Vanilla SGD(樸素SGD) 樸素SGD最爲簡單且沒有動量的概念。 注意這裏的I2是指單位矩陣的平方。 SGD的缺點在於收斂速度慢,可能在鞍點處震盪,並且如何選擇學習率是SGD的一大難點。 Momentum(動量法) SGD在遇到溝壑時容易陷入震盪。爲
相關文章
相關標籤/搜索