給模型熱身——深度學習中的warm up

Warm up是BERT 中一項重要的trick,它是什麼,它究竟能帶給我們什麼,以及如何實現。 它是什麼 Warm up是一種學習率的設置方法,其學習率的變化如下圖所示。 假設我們使用隨訓練衰減的學習率設置方法,學習率的最大值是 p p p。 在模型訓練的前 n n n步進行warm up,第 i i i步的學習率爲 i n ⋅ p \frac {i}{n} \cdot p ni​⋅p 它能帶給
相關文章
相關標籤/搜索