最優化方法

在鞍點(saddle points)處(即某些維度上梯度爲零,某些維度上梯度不爲零),SGD、Momentum與NAG一直在鞍點梯度爲零的方向上振盪,很難打破鞍點位置的對稱性;Adagrad、RMSprop與Adadelta能夠很快地向梯度不爲零的方向上轉移 下面是自己總結的,截個圖吧  
相關文章
相關標籤/搜索