機器學習常見優化方法(Optimizer)SGD,Momentum,Adagard,Adam原理

SGD爲隨機梯度下降 每次迭代計算數據集的mini-batch的梯度,然後對參數進行更新。 Momentum:「衝量」 這個概念源自於物理中的力學,表示力對時間的積累效應。 參考了物理中動量的概念,前幾次的梯度也會參與到當前的計算中,但是前幾輪的梯度疊加在當前計算中會有一定的衰減。 Adagard:(adaptive gradient)自適應梯度算法,是一種改進的隨機梯度下降算法 在訓練的過程中可
相關文章
相關標籤/搜索