[李宏毅-機器學習]梯度下降Graident Descent

  AdaGrad 每個參數都有自己的learning rate 梯度下降最好是一步到達local minim 所以最好的step是一階導數/二階導數 adagrad就是使用原來所有的微分平方和代替二次微分,能夠減少二次微分計算量 ???爲什麼可以這麼做?還不是很懂 如何代替   隨機梯度下降Stochastic Gradient descent 隨機選取一個樣本,進行gradient desce
相關文章
相關標籤/搜索