卷積神經網絡(五):SGD、adagrad與RMSprop,梯度下降法總結

SGD SGD即隨機梯度下降法,在每次更新中,計算一個Minibatch的數據,然後以Minibatch中數據的總損失對神經網絡各權值求梯度來進行權值更新,作爲訓練中的一個step。 更新方程爲: Wt+1,i=Wt,i−ηgt,iWt+1,i=Wt,i−ηgt,i 表示其在第t個step的更新梯度,η表示學習率 adagrad Adagrad在每一個更新步驟中對於每一個模型參數Wi使用不同的學習
相關文章
相關標籤/搜索