【李宏毅】機器學習 筆記03(Tips of gradient descent)

1、Adagrad Adagrad是解決不同參數應該使用不同的更新速率的問題。Adagrad自適應地爲各個參數分配不同學習率的算法。 公式如下:   2、Stochastic Gradient Descent(SGD:隨機梯度下降) 如果使用梯度下降法(批量梯度下降法),那麼每次迭代過程中都要對個樣本進行求梯度,所以開銷非常大,隨機梯度下降的思想就是隨機採樣一個樣本來更新參數,那麼計算開銷就下降了
相關文章
相關標籤/搜索