Reducing BERT Pre-Training Time from 3 Days to 76 Minutes

本篇blog是UCberkely的尤洋等基於BERT模型提出的新的pre-training方法。 Abstract 大型batch的訓練是加速分佈式Distributed DNN網絡的關鍵。然而,large-batch訓練是很困難的,他產生了很大的泛化誤差generalization gap。直接的優化經常會導致accuracy在測試集上的降低(generalization).BERT[4]作爲一
相關文章
相關標籤/搜索