機器學習面試-數學基礎

微積分 SGD,Momentum,Adagard,Adam原理 SGD爲隨機梯度下降,每一次迭代計算數據集的mini-batch的梯度,然後對參數進行跟新。 Momentum參考了物理中動量的概念,前幾次的梯度也會參與到當前的計算中,但是前幾輪的梯度疊加在當前計算中會有一定的衰減。 Adagard在訓練的過程中可以自動變更學習的速率,設置一個全局的學習率,而實際的學習率與以往的參數模和的開方成反比
相關文章
相關標籤/搜索