OpenAI推新程序包:GPU適應十倍大模型僅需增加20%訓練時間

安妮 編譯自 Medium 量子位 出品 | 公衆號 QbitAI GPU內存太小可能是神經網絡訓練過程中最大的攔路虎。 不怕,用這個OpenAI推出的gradient-checkpointing程序包,對於前饋模型來說,僅僅需要增加20%的計算時間,這個程序包,GPU就能適應十倍大的模型。 還有這種操作? 訓練神經網絡對內存的要求隨着網絡的深度和batch-size呈線性增長。在內存有限的情況下
相關文章
相關標籤/搜索