《SWALP:Stochastic Weight Averaging in Low-Precision Training》

摘要:這種方式可以使得所有數字均量化至8-bit,同時表示爲SWALP任意收斂於二次目標的最優解,在強凸條件下使噪聲球漸近小於低精度SGD。 SWALP的處理將梯度累加模塊也變爲8-bit   (Stochastic Weight Averaging)SWA的介紹: https://blog.csdn.net/leviopku/article/details/84037946 多次求平均值,SWA
相關文章
相關標籤/搜索