Digit Recognizer

batch梯度下降算法 梯度下降算法並不能保證被優化的函數達到全局最優解,只有當損失函數爲凸函數時才能保證達到了全局最優解。除了不能達到全局最優解,梯度下降算法的另外一個問題就是計算時間太長,因爲要在全部訓練數據上最小化損失,在每一輪的迭代過程中都要計算全部數據上的損失函數。 隨機梯度下降(SGD) 爲了加速訓練過程,可以使用隨機梯度下降算法(Stochastic Gradient Descent
相關文章
相關標籤/搜索