OpenAI推新程序包：GPU適應十倍大模型僅需增加20%訓練時間

時間 2021-01-21

原文原文鏈接

安妮編譯自 Medium 量子位出品 | 公衆號 QbitAI GPU內存太小可能是神經網絡訓練過程中最大的攔路虎。不怕，用這個OpenAI推出的gradient-checkpointing程序包，對於前饋模型來說，僅僅需要增加20%的計算時間，這個程序包，GPU就能適應十倍大的模型。還有這種操作？訓練神經網絡對內存的要求隨着網絡的深度和batch-size呈線性增長。在內存有限的情況下

>>阅读原文<<