【1708.07120】「超級收斂「：使用很大的學習率讓殘差網絡迅速收斂

時間 2020-12-24

原文原文鏈接

模型訓練的收斂速度由什麼決定？學習率？還是參數平面的光滑程度（參數數量，層的連接等）？數據集（若是分類模型，則看各個類別的差異大不大）？典型的學習率調整策略爲給定一個最小和最大學習率，然後以learning rates change linearly的策略調整，從最大學習率慢慢靠近最小學習率。有人對各種調整策略做了比較，發現結果並沒有什麼明顯差異，就選擇了最簡單的線性調整方法。本文發現，剛開始