深度模型壓縮策略——量化與二進制化

翻譯原文:Model Compression and Acceleration for Deep Neural Networks 量化是通過減少表示每個權重所需的比特數(the number of bits)來壓縮原始網絡。 文獻[6]和 文獻[7]對參數值使用 K 均值標量量化。 文獻[8]表明8-bit量化可以在準確率損失極小的同時實現大幅加速。 文獻[9]在基於隨機修約(stochastic
相關文章
相關標籤/搜索