模型的學習率(learning rate)太高將使網絡無法收斂!

時間 2020-12-20

原文原文鏈接

博主在跑代碼的時候，發現過大的Learning rate將導致模型無法收斂。主要原因是過大的learning rate將導致模型的參數迅速震盪到有效範圍之外.(注：由於pytorch中已封裝好的代碼對模型參數的大小設置了一個界限，因此模型參數不會無限大) 這篇文章將要探討一下不同learning rate的情況下，模型的收斂情況. lr = 0.1，模型收斂得很好。 lr = 0.6，在第8輪

>>阅读原文<<