深度學習筆記:優化算法

1、mini batch梯度下降 傳統的batch梯度下降是把所有樣本向量化成一個矩陣,每一次iteration遍歷所有樣本,進行一次參數更新,這樣做每一次迭代的計算量大,要計算所有樣本,速度慢,但是收斂可以比較直接地收斂到cost function的最小值。 隨機梯度下降(stochastic gradient descent)是每次迭代以一個樣本爲輸入,這種方法每次迭代更新參數時,參數不一定是
相關文章
相關標籤/搜索