李宏毅Machine Learning學習筆記3 Gradient Descent

時間 2020-12-24

原文原文鏈接

Home optimization problem θ∗=argminθL(θ) θ ∗ = arg ⁡ min θ L ( θ ) Tip 1: Tuning your Learning rates - 1 small 如果步伐非常小訓練的時間會非常長。 - 2 large 如果步伐非常大沒有辦法走到最低點。會在一個範圍震盪 - 3 very large 如果步伐太大 loss很快就飛出去了

>>阅读原文<<