隨機權值平均的原理解釋

SWA 的工做原理。它只保存兩個模型,而不是許多模型的集成:html 第一個模型保存模型權值的平均值(WSWA)。在訓練結束後,它將是用於預測的最終模型。網絡 第二個模型(W)將穿過權值空間,基於週期性學習率規劃探索權重空間。post   SWA權重更新公式學習 在每一個學習率週期的末尾,第二個模型的當前權重將用來更新第一個模型的權重(公式如上)。所以,在訓練階段,只需訓練一個模型,並在內存中儲存
相關文章
相關標籤/搜索