梯度下降法的優化算法

如前文梯度下降法中所介紹的,梯度下降法存在如下問題導致其迭代的可行性和效率大打折扣: (1)梯度不存在; (2)非凸函數的鞍點和局部最優解; (3)函數的信息利用率不高; (4)學習率需預設且取值固定。 本文提到的梯度下降法的優化算法指:針對問題(2)、(3)和(4)提出的基於梯度下降法的Moment、AdaGrad和Adam等一系列算法。而這系列算法的核心改良思路包括兩點: (1)通過引入歷史迭
相關文章
相關標籤/搜索