深度學習---1cycle策略:實踐中的學習率設定應該是先增再降

深度模型中的學習率及其相關參數是最重要也是最難控制的超參數,本文將介紹 Leslie Smith 在設置超參數(學習率、動量和權重衰減率)問題上第一階段的研究成果。具體而言,Leslie Smith 提出的 1cycle 策略可以令複雜模型的訓練迅速完成。它表示在 cifar10 上訓練 resnet-56 時,通過使用 1cycle,能夠在更少的迭代次數下,得到和原論文相比相同、甚至更高的精度。
相關文章
相關標籤/搜索