動手學習深度學習-Pytorch:夯基礎

一 隨機梯度下降爲什麼可以代替梯度下降最終實現收斂? 二 學習率爲什麼一般設置的比較小? 可以看到只有保證(學習率*f(x))的倒數足夠小的時候,才能帶人泰勒展開式進行近似計算,保證損失函數在迭代過程中逐漸收斂,而當學習率太大時,使前面提到的一階泰勒展開公式不再成立:這時我們無法保證迭代 x x x會降低 f ( x ) f(x) f(x)的值。
相關文章
相關標籤/搜索