梯度下降更新算法

 梯度更新是要同時更新,如下圖所示:θ0和θ1同時更新,而不是更新完一個後再更新另一個。       學習率α過小,梯度下降較慢,訓練時間增長。若學習率α過大,梯度下降會越過最低點,難以得到最優的結果,導致難以收斂或發散。   如果參數值已是局部最優,進行梯度下降計算時導數是0,梯度下降不會作任何操作,參數不改變     在梯度下過程中無需修改學習率,因爲在接近局部最有點時導數項會變小,梯度下降的
相關文章
相關標籤/搜索