batch size 越大,學習率也要越大

在論文當中 Reducing BERT Pre-training Time from 3 Days to 76 Minutes中提到:如圖所示: 結論:batchsize變大,學習率也要相應變大;本質是爲了梯度的方差保持不變;  1、爲什麼要保證梯度的方差不變呢?         個人猜想,是爲了解決陷入局部最優和一個sharp 最小值(類似於一個很尖的V底)的問題,增強泛化能力;增加了學習率,就
相關文章
相關標籤/搜索