Reducing BERT Pre-Training Time from 3 Days to 76 Minutes

時間 2021-01-17

原文原文鏈接

本篇blog是UCberkely的尤洋等基於BERT模型提出的新的pre-training方法。 Abstract 大型batch的訓練是加速分佈式Distributed DNN網絡的關鍵。然而，large-batch訓練是很困難的，他產生了很大的泛化誤差generalization gap。直接的優化經常會導致accuracy在測試集上的降低（generalization）.BERT[4]作爲一

>>阅读原文<<