隨機梯度下降(SGD)與經典的梯度下降法的區別

隨機梯度下降(SGD)與經典的梯度下降法的區別 經典的優化方法,例如梯度下降法,在每次迭代過程中需要使用所有的訓練數據,這就給求解大規模數據優化問題帶來挑戰。 知識點:隨機梯度下降法(SGD)、小批量梯度下降法。 在機器學習中,目標函數通常可以表示成爲如下形式: 而經典的梯度下降法採用所有的訓練數據的平均損失來近似目標函數。其中M是訓練樣本的個數。 模型參數的更新公式爲: 因此,經典的梯度下降法在
相關文章
相關標籤/搜索