《動手學深度學習》第三十二天---動量法

時間 2020-06-08

標籤動手學深度學習第三十二天 2天動量简体版

原文原文鏈接

在梯度降低中可能存在的問題是，學習率過大，會致使不收斂。回顧一下咱們使用近似的前提是：找到一個常數η（學習率）＞0，使得|??′(?)|足夠小，而後經過來迭代x，從讓f(x)不斷降低。可是當咱們使用過大的學習率時，|??′(?)|可能會過大從而使一階泰勒展開再也不成立，這個時候沒法保證迭代?會下降?(?)的值，那麼x就有可能越過最優解而逐漸發散。在一個二維向量的目標函數中，就可能出如今相同的學

>>阅读原文<<