優化方法總結:SGD,Momentum,AdaGrad,RMSProp,Adam

1. SGD Batch Gradient Descent 在每一輪的訓練過程中,Batch Gradient Descent算法用整個訓練集的數據計算cost fuction的梯度,並用該梯度對模型參數進行更新: Θ=Θ−α⋅▽ΘJ(Θ) 優點: cost fuction若爲凸函數,能夠保證收斂到全局最優值;若爲非凸函數,能夠收斂到局部最優值 缺點: 由於每輪迭代都需要在整個數據集上計算一次,所
相關文章
相關標籤/搜索