卷積神經網絡(五):SGD、adagrad與RMSprop,梯度下降法總結

SGD SGD即隨機梯度下降法,在每次更新中,計算一個Minibatch的數據,然後以Minibatch中數據的總損失對神經網絡各權值求梯度來進行權值更新,作爲訓練中的一個step。 更新方程爲: Wt+1,i=Wt,i−ηgt,i W t + 1 , i = W t , i − η g t , i 其中 Wt,i W t , i 表示第t個step,第i個權值更新前的值, gt,i g t ,
相關文章
相關標籤/搜索