OpenAI推新程序包：GPU適應十倍大模型僅需增加20%訓練時間

時間 2021-01-21

原文原文鏈接

本文來自AI新媒體量子位（QbitAI） GPU內存太小可能是神經網絡訓練過程中最大的攔路虎。不怕，用這個OpenAI推出的gradient-checkpointing程序包，對於前饋模型來說，僅僅需要增加20%的計算時間，這個程序包，GPU就能適應十倍大的模型。還有這種操作？訓練神經網絡對內存的要求隨着網絡的深度和batch-size呈線性增長。在內存有限的情況下，如果想訓練深層模型，並且

>>阅读原文<<