[李宏毅-機器學習]梯度下降Graident Descent

時間 2021-01-12

標籤深度學習简体版

原文原文鏈接

AdaGrad 每個參數都有自己的learning rate 梯度下降最好是一步到達local minim 所以最好的step是一階導數/二階導數 adagrad就是使用原來所有的微分平方和代替二次微分，能夠減少二次微分計算量？？？爲什麼可以這麼做？還不是很懂如何代替隨機梯度下降Stochastic Gradient descent 隨機選取一個樣本，進行gradient desce

>>阅读原文<<