通過增加模型的大小來加速Transformer的訓練和推理

點擊上方「AI公園」,關注公衆號,選擇加「星標「或「置頂」 作者:Eric Wallace 編譯:ronghuaiyang 導讀 你沒有看錯,確實是通過增大模型的大小,大家別忘了,在訓練的時候,有個隱含條件,那就是模型需要訓練到收斂。 模型訓練會很慢 在深度學習中,使用更多的計算(例如,增加模型大小、數據集大小或訓練步驟)通常會導致更高的準確性。考慮到最近像BERT這樣的無監督預訓練方法的成功,這
相關文章
相關標籤/搜索