Warmup Learning

       Warmup學習率並不是一個新穎的東西, 在很多task上面都被證明是有效的,標準Baseline使用是的常見階梯下降型學習率,初始學習率爲3.5e-4,總共訓,120個epoch,在第40和70個epoch進行學習率下降。用一個很大的學習率初始化網路可能使得網絡震盪到一個次優空間,因爲網絡初期的梯度是很大的。Warmup的策略就是初期用一個逐漸遞增的學習率去初始化網絡,漸漸初始化到
相關文章
相關標籤/搜索