機器學習優化過程中的各種梯度下降方法(SGD,AdaGrad,RMSprop,AdaDelta,Adam,Momentum,Nesterov)

機器學習優化過程中的各種梯度下降方法(SGD,AdaGrad,RMSprop,AdaDelta,Adam,Momentum,Nesterov) 實際上,優化算法可以分成一階優化和二階優化算法,其中一階優化就是指的梯度算法及其變種,而二階優化一般是用二階導數(Hessian 矩陣)來計算,如牛頓法,由於需要計算Hessian陣和其逆矩陣,計算量較大,因此沒有流行開來。這裏主要總結一階優化的各種梯度下
相關文章
相關標籤/搜索