深度學習之梯度下降優化算法

  一、梯度下降的變種算法 1、BGD 批量梯度下降法更新一次參數需要計算整個數據集所有樣本的梯度,因此更新速度非常慢,對於凸優化問題會收斂到全局最優點、而非凸優化問題則會收斂到局部最優點,這種方法有可能無法將大量的數據放入內存,也不能進行在線學習。           2、SGD 隨機梯度下降法更新一次參數只需計算一個樣本的梯度,更新速度很快、參數方差波動大,適用於在線學習,有可能跳出局部最優到
相關文章
相關標籤/搜索