Adam 和隨機梯度下降的區別?

1、Adam 和隨機梯度下降的區別? 一、SGD 1.1 對每一個待更新參數的求梯度,並在一定的學習率下按照梯度反方向更新參數。 1.2 但該方法存在顯著的弊端,例如以下這樣的損失函數:在不同的參數方向一方面學習率不應當一樣,因爲他們的梯度程度不同,一個x1方向梯度較大,x2方向梯度較小,但若以相同學習率,很容易受單個參數的影響而很難走到局部最優點。 二、Adam 2.1 Adam 一方面動態的修
相關文章
相關標籤/搜索