訓練大型神經網絡方法總結

時間 2020-07-17

標籤訓練大型神經網絡方法總結简体版

原文原文鏈接

一隻小狐狸帶你解鎖煉丹術&NLP 祕籍php 前陣子微軟開源了DeepSpeed訓練框架，從測試效果來看有10倍的速度提高，並且對內存進行了各類優化，最大能夠訓練100B(illion)參數的模型。同時發佈了這個框架訓練出的17B模型 Turing-NLG，處於目前壕賽事的頂端。 node 訓100B的模型就先別想了（狗頭），先把110M的BERT-base訓好上線吧。本文主要介紹模型訓練中速度

>>阅读原文<<