【1708.07120】「超級收斂「:使用很大的學習率讓殘差網絡迅速收斂

模型訓練的收斂速度由什麼決定?學習率?還是參數平面的光滑程度(參數數量,層的連接等)?數據集(若是分類模型,則看各個類別的差異大不大)? 典型的學習率調整策略爲給定一個最小和最大學習率,然後以learning rates change linearly的策略調整,從最大學習率慢慢靠近最小學習率。有人對各種調整策略做了比較,發現結果並沒有什麼明顯差異,就選擇了最簡單的線性調整方法。 本文發現,剛開始
相關文章
相關標籤/搜索