李宏毅深度學習筆記1-4Gradient Descent

1、梯度下降的步驟 選擇初始點,求偏微分,按梯度下降公式和學習率移動點。最終到達最低點。梯度也可以理解爲等高線的法線方向,但是梯度下降取的是梯度的相反方向。 2、學習率的大小對算法的影響 學習率過大會在最低點附近震盪,甚至直接越過最低點,學習率太低,移動速度會很慢,要調整學習率,使得Loss function下降的最快 3、學習率的調整方法 1)隨着參數的更新,學習率不斷變小,並將參數的學習率分開
相關文章
相關標籤/搜索