李宏毅《機器學習》筆記-4. Gradient Descent

關於梯度下降的一下技巧 1. 調整學習率 若學習率太大,可能會錯過最小值;若學習率太小,有可能收斂速度太慢。 可變學習率 爲了讓梯度下降可以收斂到最小值,一般來說學習率要跟隨迭代次數變小。一種常見的做法是讓 η t = η / t + 1 \eta^{t}={\eta} / {\sqrt{t+1}} ηt=η/t+1 ​ Adagrad Adagrad 是一種常用的可變學習率的做法,它還考慮了歷史
相關文章
相關標籤/搜索