李宏毅Gradient Descent(lecturte3)課堂筆記

  其中,learning rate:η    :梯度,它實際是個vector。Gradient可以考慮成Loss等高線的法線方向 learning rate要小心調節 紅線的learning rate就是剛剛好,藍線太慢了,綠線黃線太快了。可以通過畫右邊圖來觀察。 越學習越慢,不同的參數最好提供不同的learning rate。 怎麼選擇learning rate呢?可以採用Adagrad 實際
相關文章
相關標籤/搜索