Training Deep Nets with Sublinear Memory Cost

《Training Deep Nets with Sublinear Memory Cost》筆記 摘要 我們提出了一種減少深度神經網絡訓練時內存消耗的系統性方法。具體來說,我們設計了一個算法,訓練一個 n n 層網絡僅耗費 O(n−−√) O ( n ) 的內存,每個mini-batch只需要一個額外的前向計算成本。由於許多最先進的模型已經達到了GPU顯存的上限,我們的算法允許探索更深入更復雜的
相關文章
相關標籤/搜索