李宏毅Machine Learning學習筆記3 Gradient Descent

Home optimization problem θ∗=argminθL(θ) θ ∗ = arg ⁡ min θ L ( θ ) Tip 1: Tuning your Learning rates - 1 small 如果步伐非常小 訓練的時間會非常長。 - 2 large 如果步伐非常大 沒有辦法走到最低點。會在一個範圍震盪 - 3 very large 如果步伐太大 loss很快就飛出去了
相關文章
相關標籤/搜索