模型的學習率(learning rate)太高將使網絡無法收斂!

博主在跑代碼的時候,發現過大的Learning rate將導致模型無法收斂。 主要原因是過大的learning rate將導致模型的參數迅速震盪到有效範圍之外.(注: 由於pytorch中已封裝好的代碼對模型參數的大小設置了一個界限,因此模型參數不會無限大) 這篇文章將要探討一下不同learning rate的情況下,模型的收斂情況. lr = 0.1,模型收斂得很好。 lr = 0.6,在第8輪
相關文章
相關標籤/搜索