李宏毅機器學習筆記2:Gradient Descent

梯度下降 求θ1, θ2使損失函數最小。 梯度下降方向:沿着等高線的法線方向。 梯度下降要點 1. 調整你的學習率 使損失函數越來越小 Adaptive Learning Rates 2.Adaptive Learning Rates 2.1 Adagrad 等價於 因爲: (所有導數的平方的均值,再開根號) 造成反差的效果 2.2 Stochastic Gradient Descent 一次只使
相關文章
相關標籤/搜索