李宏毅機器學習筆記01(梯度下降的一些內容)

在梯度下降中,learning rate是一個挺難選擇的點: 選擇大一點的學習率:可以快速的下降,但是容易出現降過頭的現象。 選擇較小的學習率:不容易錯過極值點,但是迭代的時間太長。 一種常見的想法:就是想着隨着參數調整次數的增多,學習率應該越來越小 a = a/(t+1) t表示迭代的次數; 但是最好的方式是每一個參數對應一個學習率,這樣就引出了Adagrad。 adagrad的式子如上。 SG
相關文章
相關標籤/搜索