OpenAI推新程序包:GPU適應十倍大模型僅需增加20%訓練時間

本文來自AI新媒體量子位(QbitAI) GPU內存太小可能是神經網絡訓練過程中最大的攔路虎。 不怕,用這個OpenAI推出的gradient-checkpointing程序包,對於前饋模型來說,僅僅需要增加20%的計算時間,這個程序包,GPU就能適應十倍大的模型。 還有這種操作? 訓練神經網絡對內存的要求隨着網絡的深度和batch-size呈線性增長。在內存有限的情況下,如果想訓練深層模型,並且
相關文章
相關標籤/搜索