Training Deep Nets with Sublinear Memory Cost

時間 2020-12-30

原文原文鏈接

《Training Deep Nets with Sublinear Memory Cost》筆記摘要我們提出了一種減少深度神經網絡訓練時內存消耗的系統性方法。具體來說，我們設計了一個算法，訓練一個 n n 層網絡僅耗費 O(n−−√) O ( n ) 的內存，每個mini-batch只需要一個額外的前向計算成本。由於許多最先進的模型已經達到了GPU顯存的上限，我們的算法允許探索更深入更復雜的

>>阅读原文<<