訓練大型神經網絡方法總結

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍php 前陣子微軟開源了DeepSpeed訓練框架,從測試效果來看有10倍的速度提高,並且對內存進行了各類優化,最大能夠訓練100B(illion)參數的模型。同時發佈了這個框架訓練出的17B模型 Turing-NLG,處於目前壕賽事的頂端。 node 訓100B的模型就先別想了(狗頭),先把110M的BERT-base訓好上線吧。本文主要介紹模型訓練中速度
相關文章
相關標籤/搜索