《動手學深度學習》第三十二天---動量法

在梯度降低中可能存在的問題是,學習率過大,會致使不收斂。回顧一下咱們使用近似的前提是:找到一個常數η(學習率)>0,使得|??′(?)|足夠小,而後經過 來迭代x,從讓f(x)不斷降低。可是當咱們使用過大的學習率時,|??′(?)|可能會過大從而使一階泰勒展開再也不成立,這個時候沒法保證迭代?會下降?(?)的值,那麼x就有可能越過最優解而逐漸發散。 在一個二維向量的目標函數中,就可能出如今相同的學
相關文章
相關標籤/搜索