通過增加模型的大小來加速Transformer的訓練和推理

時間 2021-01-04

原文原文鏈接

點擊上方「AI公園」，關注公衆號，選擇加「星標「或「置頂」作者：Eric Wallace 編譯：ronghuaiyang 導讀你沒有看錯，確實是通過增大模型的大小，大家別忘了，在訓練的時候，有個隱含條件，那就是模型需要訓練到收斂。模型訓練會很慢在深度學習中，使用更多的計算(例如，增加模型大小、數據集大小或訓練步驟)通常會導致更高的準確性。考慮到最近像BERT這樣的無監督預訓練方法的成功，這

>>阅读原文<<