zz神經網絡模型量化方法簡介

【轉載請註明出處】chenrudan.github.io

隨着神經網絡算法的發展，網絡性能雖然愈來愈強大，可是也耗費了太多的計算資源和內存，爲了獲得更有效率的網絡以及能部署在移動端，近幾年神經網絡的壓縮算法成了一個研究熱點，主要的網絡壓縮途徑有五種，量化、剪枝、低秩分解、教師-學生網絡、輕量化網絡設計，量化就是將以往用32bit或者64bit表達的浮點數用1bit、2bit佔用較少內存空間的形式進行存儲。剪枝的目的是爲了去掉一些不重要的神經元、鏈接、通道等，低秩分解主要是經過各類分解方法用精簡的張量來表達複雜張量，教師-學生網絡間接經過提高小網絡性能來壓縮學生網絡的規模，通常能夠與其餘壓縮方法同時使用，輕量化網絡設計主要是相似MobileNet這種設計的很是精簡但性能又好的網絡。幾種方法都各有特色，都是值得研究和討論的，本文主要針對量化算法近幾年的發展作一個梳理和概括，我以爲量化算法有幾個特色，理論簡單，公式少，性能穩定且trick多。

下圖1-4我整理了本文涉及到的文章在各個開源數據集上的性能表現，因爲各個文章中對比指標不是徹底一致，例如MNIST、Cifar10所用到的基礎網絡不必定同樣，對性能感興趣的能夠去對照原文看看。

圖1 Cifar十、VGG、GoogLeNet	圖2 AlexNet
圖3 ResNet18	圖4 ResNet34 & ResNet50

圖1 Cifar十、VGG、GoogLeNet	圖2 AlexNet
圖3 ResNet18	圖4 ResNet34 & ResNet50

模型量化主要包括兩個部分，一是針對權重Weight量化，一是針對激活值Activation量化，在一些文章中已經代表了將權重和激活值量化到8bit時就能夠等價32bit的性能。在神經網絡中的基本操做就是權重和激活值的卷積、乘加操做， $W * A$

BinnaryConnect

BinnaryConnect[2]是我看到的第一篇概括出完整量化流程的文章，它提出DNN的前向和反向訓練中用1bit的二值權重替代浮點權重，可以讓硬件計算將乘法操做簡化成簡單的累加操做，且能大量的減小存儲空間，在MNIST、CIFAR-十、SVHN上接近SOA的性能。

咱們知道正是因爲神經網絡參數量大，沒法直接獲得損失函數的最優參數，才採用了梯度降低的方式來逼近最優解，Sgd經過平均權重帶來的梯度來獲得一些小的帶噪聲的步長，嘗試更新權重去搜索參數空間，所以這些梯度十分重要，要具備足夠的分辨率，sgd至少須要6~~8bits的精度，大腦突觸的估計精度也是6~~12bits。。若是採用量化權重，就會致使沒法對權重直接求導，這種權重能夠被當作是帶噪聲的權重。文章認爲帶噪聲的權重每每可以帶來正則化，使得泛化能力更好，相似dropout、dropconnect這種就是對激活值或者權重加入了噪聲，它們代表只有權重的指望值須要是高精度的，添加噪聲每每是有益處的，因此對權重進行量化理論角度是可行的，且在部分文章中發現對梯度隨機取捨可以提供無偏離散化。

在本文中提出了BinaryConnect，在DNN的前向和反向訓練中用二值權重替代浮點權重，此處的二值權重B取值爲{-1,1}，文章中提出了兩種量化方法，判別式和隨機式，其中 $σ (w) = c l i p (\frac{x + 1}{2}, 0, 1)$

w b = {+ 1, if w \geq 0; - 1, otherwise (1)

w b = {+ 1, with probability p = σ (w); - 1, with probability 1-p (2)

完整算法流程以下圖5，C是損失函數，binarize(w)是按照上述公式二值化權重值，clip(w)是截斷權重值，L是層數。前向傳播時，只對權重作二值化，而後逐層求出二值權重獲得的激活值，反向傳播時，也是在二值權重上將對每層輸入的導數傳播回來，此時的導數是浮點的，更新參數時，一樣求得的梯度也是浮點的。因爲一般求得的梯度數值不是很大可是又很是重要，因此此處參數更新時仍是用浮點梯度。因爲權重量化時只取符號，浮點權重大於正負1，對結果沒有影響，爲了限制浮點權重不會增加過於誇張以及提升正則性，使用了clip函數將浮點權重限制在正負1之間。

圖5 BinnaryConnect算法流程

量化網絡如何inference，一是直接用二值權重。二是用浮點權重，權重二值化只用在訓練階段。三是從浮點權重和隨機二值化能夠採樣出不少二值網絡，將它們的預測輸出平均一下做爲輸出。論文用第三種方法，訓練過程當中用隨機二值權重，測試時用浮點權重能夠提高性能，證實了論文前面認爲的帶噪聲的權重具備必定的正則性。

這篇文章主要貢獻在於將浮點權重量化到1bit，提出了完整的量化權重流程，且從帶噪聲的權重角度來解釋量化權重。

BNN

BNN[3]與BinnaryConnect是同一個做者，也是這個算法的擴展，在前面只將權重量化到了1bit，本文則進一步將激活值也變成1bit，即減小了內存消耗，也將許多乘加操做簡化成了按位操做XNOR-Count，二值化CNN可以減小60%的硬件時間複雜度，訓練BNN在MNIST、CIFAR-十、SVHN上達到了SOA的性能。

權重和激活值都量化成了{-1,1}，量化方式也是按照公式1和2，隨機式在硬件實現上具備必定的難度，爲了加快訓練速度，文章中用的是判別式。因爲符號函數的梯度都是0，離散神經元的梯度能夠經過straight-through estimator[25]來解決，即浮點數的梯度等於量化數的梯度 $g_{r} = g_{q} 1_{| r | \leq 1}$

在訓練過程當中，須要保存二值權重和浮點權重，在前向後向計算中用二值權重，計算出來的梯度保存成浮點，且更新到浮點權重上。前向傳播時，先對 $W_{k}$

文章中提出了第一個卷積層參數廣泛較少，因此第一個卷積層輸入量化到8bit，後面不少論文也採用一樣的策略。與1bit權重相乘方式如公式3， $x^{n}$

s = \sum n = 1 8 2 n - 1 (x n \cdot w b) (3)

BNN算法主要貢獻在於同時對權重和激活值量化到1bit，不只從實驗角度證實量化算法的可行，還分析針對低bit如何進行更有效的計算，整理出了同時量化權重和激活值到1bit的算法流程，且針對內部的硬件計算，給出了具體實現，例如Shift-based Batch Normalization、XNOR-Count，最終訓練能減小60%的時間，32倍的存儲空間。

XNOR-Net

這篇文章[15]提出了兩個網絡Binary-Weight-Networks(BWN)和XNOR-Net，BWN只將權重量化爲二值，XNOR權重和激活值都是二值，速度快了58x，內存節省32x。當AlexNet壓縮成BWN時，性能與浮點網絡一致。

在對浮點值進行量化時，加入了一個scaling factor，例如權重量化中 $W = α B$

J (B, α) = | | W - α B | | 2 α *, B * = a r g m

將公式4對 $α$

XNOR-Net中對激活值也量化 $X = β H$

Cnn訓練分爲三個部分，前向傳播、後向傳播、參數更新，在前向後向的計算中使用量化權重，更新時若是直接更新量化權重，那麼梯度可能不夠大到改變量化權重的取值，因此仍是讓浮點權重進行更新。

XNOR-Net文章主要貢獻在於提出了一個更好的擬合浮點數的方法，即給二值數增長一個尺度因子，而不是簡單的取符號，在alexnet上將權重量化到1bit時可以達到跟浮點權重同樣的性能。

TWN

前幾篇文章都是將浮點數直接量化到了1bit，TWN[4]則提出將權重量化成2bit，雖然2bit能表達四個數，可是隻取了三個數{-1,0,1}，在mnist和cifar10數據集上三值權重性能比二值權重好不少，經過2bit表達，能夠達到16x到32x的模型壓縮比例。

通常卷積kernel的尺寸是3x3，針對二值權重，表達能力是2^(33)=512種配置，而三值權重3^(33)=19683種配置，因此說三值權重比二值權重的表達能力要高不少。三值權重取值上多了一個0，實際計算中，因爲0值處不須要進行相乘累加，對硬件也是十分友好。

量化公式如公式5，也使用到了尺度因子來擬合浮點權重，最小化量化權重TWN和浮點權重FPWN之間的L2距離。

α *, W t * = a r g m i n α, W t J (α, W t) = | | W -

優化問題就變成了如何求出 $α$

W t i = + 1, ::: i f :: W i > Δ

求閾值則沒法直接去求解，所以假設權重服從幾個分佈來分析這個閾值的求解途徑，例如假設權重服從均勻分佈[-a,a]，閾值 $Δ = 1 / 3 * a$

TWN的主要貢獻經過2bit來近似浮點權重，相比於二值權重性能有較明顯的提高，但因爲取值也限於正負1和0，對硬件計算沒有額外的負擔。

BWNH

[5]認爲量化的過程能夠當作一個hash映射，目標就變成了交替優化方法來學習哈希碼。

在以前文章中的量化優化問題都是找到最優的量化數值來擬合浮點數值，本文中考慮的是最小化內積的量化偏差。本文中是將權重量化到1bit，內積指的是權重和激活值之間相乘，也稱爲輸入X和權重W的類似性矩陣 $S = X^{T} W$

m i n L (B) = | | X T W - X T B | | 2 F ::: s . t . B \in {+ 1, -

$g (W) = B A$

此處對A和B求梯度設爲0，能夠推導出帶有輸入數據關於 $α$

α i = S T i X T B i | | X T B i | | 2 F b = s i

在具體算法流程中，逐層的對每一層的權值作二值化，每一層量化時初始化時B取浮點權重的符號，而A取權重平均絕對值，接着就按照公式8進行交替的優化A和B。最後再對整個網絡進行finetuing。

BWNH只對權重進行了量化，算法主要貢獻在於從哈希角度來解決量化問題，而且提出了逐層的交替更新，相對於以前的二值權重量化方法性能有着較爲明顯的提高。

FFN

FFN[16]中只將浮點權重量化到2bit，經過定點化分解方式來求解量化後權重，因爲三值權重只有正負1和0，便可以消除最耗費資源的multiply-accumulate operations(MAC)操做，FFN能夠獲得浮點網絡性能至關的網絡，且乘法運算僅爲浮點網絡的千分之一。

經過semidiscrete decomposition(SDD)半離散分解將浮點權重W分解成定點化方式 $W = X D Y^{T}$

圖6 FFN分解

爲了更好的恢復浮點權重，算法中保留了X和Y對應的浮點數值 $\hat{X}$

FFN只針對權重作了量化，提出了將浮點權重矩陣用矩陣分解的方式分解成三個簡單矩陣，其中兩個矩陣元素取值爲正負1和0，從而間接完成量化的功能。

INQ

INQ[17]提出增量網絡量化方法，經過權重分組、按組量化、從新訓練三個操做將浮點網絡量化到低bit網絡，在resnet18上量化權重後，4bit、3bit、2bit可以達到甚至超過浮點權重。

文章從網絡剪枝算法中獲得靈感，逐步的從已經訓練好的網絡中移除掉不那麼重要的權重，最終性能也不會有明顯降低，因此說權重是存在不一樣的重要性的，可是以前的方法沒有考慮到這點，而是同時將高精度浮點數轉化爲低精度數值，所以改變網絡權重的重要性對於減小量化網絡的損失很重要。

本文中低bit權重須要一個符號位，至少從2bit開始，b是比特數，取值範圍是 $P_{l} = \pm 2^{n_{1}}, \dots, \pm 2^{n_{2}}, 0$

W l^(i, j) = β s g n (W l (i, j)) :::: if (α + β) / 2 \leq a b s (

網絡訓練過程當中，將權重分割到兩個不相交的組中，第一個組 $A_{l}^{(1)}$

圖7 INQ算法

INQ算法對權重進行了量化，經過逐步增量式的將權重量化，經過保留一部分浮點權重來恢復模型的性能，精度損失獲得了必定的遏止。

SQ-B(T)WN

SQ-B(T)WN[6]也是一種增量式量化算法，它從不一樣權重會致使不一樣量化偏差角度，在近似實數權重時，可能只是針對部分filter量化error大，部分filter量化error小，文章提出了隨機選擇部分filter量化STOCHASTIC QUANTIZATION，逐漸增長量化比例最終完成所有權重量化。

一層的權重按照輸出channel做爲一組數據 $W = W_{1}, \dots, W_{m}$

針對每個filter $W_{i}$

圖8 隨機channel量化

在圖8中，先計算出4個channel的量化error，假設當前r=50%，根據每一個channel計算出來的量化機率挑選2個channel量化。

SQ-B(T)WN算法經過逐步量化權重，比直接所有量化產生的更加合適梯度方向，可是從算法結果上來講，看起來並非特別好。

Deep Compression

Deep Compression算法[7]結合了剪枝、量化、哈夫曼編碼三種操做，在性能沒有下降的狀況下壓縮了35x~49x，目標是減小存儲空間減小inference的耗時，從而能部署在移動設備上。

第一步是剪枝，在訓練過程當中來學習各個鏈接的性能表現，而後裁剪掉權重較小不夠重要的鏈接，經過設定一個閾值，小於這個閾值移除掉，再從新訓練留下的稀疏鏈接。剪枝後的稀疏結構用compressed sparse row和compressed sparse row方式存儲，須要保存2a+n+1數據，a是非零值元素個數，n是行數或者列數。這一步中能夠在Alexnet和VGG-16上壓縮9x~13x。

第二步是量化，經過讓多個鏈接共享相同權重來達到量化目的，在有限的bit數中只能表達有限的數值，因此當某些神經元取同樣的數值時，就說它們在共享這個權重。假設權重大小是4*4，權重被量化到4個bin，在相同bin中的權重取值相同，所以只須要保存bin的索引，更新的時候相同bin中的梯度加起來再更新。假若有k個bin，那麼須要log2k位來對索引進行編碼，假如網絡有n個鏈接，每一個鏈接由b個位表達，從而能夠獲得壓縮比例 $r = \frac{n b}{n l o g 2 (k) + k b}$

huffman編碼是一種無損數據壓縮方法，壓縮非均勻分佈的值可節省20%~~30%的網絡存儲。最終通過這三個操做，網絡在性能沒有下降的狀況下被壓縮了35x~~49x。

這篇文章操做較多比較複雜，可是性能是穩定可靠的，每一個壓縮操做都沒有致使性能降低。

TTQ

TTQ[8]量化浮點權重到三值權重，在開源數據集上相比浮點性能降低不多。

在以前的量化算法中，是經過一個尺度因子和三值權重相乘來擬合浮點權重，像在TWN中給出了經驗公式來計算尺度因子 $α$

首先將浮點權重除以最大值後正則化到正負1之間，全部的層有一個相同的參數t，用來計算閾值 $Δ_{l} = t \times m a x (| \tilde{w} |)$

w t l = W p l : w ~ l > Δ l 0 : | w ~ l | < Δ l -

這裏針對正負數有不一樣的量化levels，即有兩個尺度因子 $W_{l}^{p}$

對尺度因子進行訓練的好處在於，正負尺度因子的不對稱使得模型能力更強，且針對全部層有一個常數稀疏r，調整超參數r能夠調整量化閾值，可以得到不一樣稀疏度的三值網絡。

TTQ中將正負量化levels分開考慮，且做爲可訓練的參數進行更新，而不是用經驗公式進行計算，性能比TWN也要好一些。

DoReFa-Net

在DoReFa-Net[9]中權重、激活值和參數梯度都設置成了低bit，優勢是不僅在inference時可以加速，且訓練時因爲梯度也被量化了，訓練時也能加速。因此可以很好的在硬件平臺上直接進行訓練。

當權重和激活值都量化後，就可以用bitcount操做來計算，即x和y相與的結果後能夠直接數出位置爲1的個數，而以前的文章中尚未量化過梯度到8bit如下。在BNN網絡中，浮點梯度在-1到1範圍內時等於量化梯度，超出範圍就等於0，在xnor-net中，浮點梯度直接等於量化梯度，因爲加上了一個尺度因子，因此權重可以表示的範圍就更廣了，在DoReFa-Net中權重量化方式爲 $r_{o} = f_{w}^{k} (r_{i}) = 2 q u a n t i z e_{k} (\frac{t a n h (r_{i})}{2 m a x (| t a n h (r_{i}) |)} + \frac{1}{2}) - 1$

激活值的量化先是由一個激活函數將範圍限制在0~1以內，再量化到k bit， $f_{a}^{k} (r) = q u a n t i z e_{k} (r)$

在針對梯度進行量化時，隨機量化是一個比較有效的手段，且梯度是不像激活值能夠被限制在某個範圍內，有的位置上梯度取值可能會比較大，激活值因爲能夠通過一個激活函數，因此可以限制數值大小。梯度量化公式爲 $f_{γ}^{k} (d r) = 2 m a x_{0} (| d_{r} |) [q u a n t i z e_{k} [\frac{d_{r}}{2 m a x_{0} (| d_{r} |)} + \frac{1}{2} + N (k)] - \frac{1}{2}]$

因此DoReFa-Net並非指定量化到多少bit，而是能夠量化到任意的bit，因爲整個網絡的輸入數據層channel較少，對於總體網絡複雜度影響較小，所以第一個卷積層的權重不進行量化，第一個卷積層的輸出激活值會被量化，若是輸出類別較少時，最後一個卷積層的權重也不進行量化，最後一層的反向梯度須要量化。

這篇文章主要就是提出對梯度也進行量化，而且支持量化到任意bit。

ABC-Net

二值權重和激活值可以很大程度的減小內存空間，且能採用按位計算，對硬件很友好，可是現有的方法會致使性能降低，本文主要提出了ABC-net(Accurate-Binary Convolutional)線性組合多個二值權重基來擬合浮點權重，利用多個二值激活值基組合來減小信息損失。

將浮點權重用M組二值權重和尺度因子進行線性組合， $W \approx α_{1} B_{1} + α_{2} B_{2} + \dots + α_{M} B_{M}$

當權重是二值的，卷積操做就沒有了乘法，只剩下加減，若是想要更高效的利用按位操做，最好是將激活值也變爲二值。所以相似對權重的處理，文章首先將激活值經過一個clip函數 $h_{v} (x) = c l i p (x + v, 0, 1)$

ABC-Net也是一個不限制bit數的量化算法，性能也接近浮點網絡。

HWGQ

HWGQ[11]主要針對激活值量化，利用了激活值的統計特性和batchnorm操做，在前向計算時能有效的近似浮點值的性能。

針對激活值的量化須要處理不可微的操做，主要切入點在於ReLU函數，神經網絡每一個單元都計算了一個激活函數，即權重與輸入相乘後通過一個非線性變換，這個操做的多少決定了整個網絡的複雜度。

本文中估計1bit量化權重，也是基於二值權重和尺度因子相乘去擬合浮點權重，輸入I與量化權重卷積來近似I和浮點權重卷積結果，是二值權重取浮點權重的符號 $B^{*} = s i g n (W)$

在對激活值進行量化時，若是直接按照符號函數來定義量化levels，那麼對量化激活值進行求導時，導數到處爲0，因此有人提出，對符號函數求導若是輸入絕對值小於1則梯度爲1，其餘位置取0。結合relu函數，本文對激活值量化的目標是擬合relu函數的輸出。quantizer是一個分段常數函數，量化levels就是量化到的值，量化step就是兩個量化level之間的差，針對每一個浮點數值，它只須要保存一個索引值i，對應到第i個量化level，非均勻量化狀況下表達浮點權重須要多餘 $l o g_{2} m$

首先考慮最基本的relu函數，它對輸入的梯度等於輸出梯度，與正向的HWGQ所須要的梯度是不匹配的，特別是當輸入數值大於最大的量化level時，產生的偏差致使的反向梯度就會特別大。基於這個狀況，考慮用clipped後的relu，保證最大值不超過最大的量化level，可是因爲clipped的操做，丟失掉了 $q_{m}$

Q l ~ (x) = q m + l o g (x - τ), x > q m x, x \in (0, q m] 0,

HWGQ主要從理論上分析如何去選擇一個激活函數，從而保證激活值量化後低bit網絡性能接近浮點網絡。

Network Sketching

本文提出了Network Sketching[19]用來尋找量化二值權重的網絡，整個過程能夠當作是由粗到細的模型近似。

按照輸出channel來劃分不一樣的filter，假設有m組基來擬合一個channel的權重， $W = \sum_{m = 0}^{m - 1} α_{j} B_{j}$

W j^= W - \sum k = 0 j - 1 α k B k (12)

具體在求B和 $α$

本文的sketch就體如今第j個量化權重是在估計當前浮點權重的殘差，量化error愈來愈精細，就像在逐步的從粗到細描繪出具體的輪廓。

PQ+TS+Guided

本文[20]爲了提高量化網絡訓練性能，提出了三個方法，一是兩步優化策略，先量化權重再量化激活值，其次在訓練過程當中逐步減小量化位寬，第三聯合訓練浮點網絡和低精度網絡。

量化採用的是Q函數均勻量化， $z_{q} = Q (z_{r}) = \frac{1}{2^{k} - 1} r o u n d ((2^{k} - 1) z_{r})$

爲了增長量化的準確性，本文首先提出了兩步優化two-stage optimization(TS)，先量化權重再量化激活值，若是從K-bit的網絡量化獲得k-bit的網絡，首先訓練在K-bit激活值下的k-bit權重，在k-bit權重訓練好後訓練k-bit的激活值。而因爲訓練過程當中近似的梯度不必定是準確的，因此會致使陷入局部最優值的狀況，因此本文提出了分階段量化progressive quantization(PQ)的想法，逐步減小量化位寬的方法，例如32bit->16bit->4bit->2bit，量化n次就得完整訓練n次。第三個提高方法是基於教師-學生網絡(Guided)，聯合訓練浮點網絡和低精度網絡，互相適應，由於直接用固定的預訓練好的浮點模型來指導量化網絡不必定最好，且在特徵圖層面上進行遷移，爲了保持浮點網絡和低精度網絡一致，在相互適應時，將浮點網絡也作一樣的量化，而後再相互遷移。

圖9 Guided訓練

這個方法主要是提出一些有效的trick來輔助訓練量化網絡，且表現很是不錯。

SYQ

SYQ[21]提出了對稱量化可以提高網絡準確率。

在SYQ中，Codebook C是量化levels的一些可能取值，例如{-1,1}，或者{-1,0,1}，二值化或者三值化權重時一般的方法是採用分段常數函數，並存在 $η$

不少細粒度量化方法可以提高近似權重分佈的能力，本文實現了按像素進行縮放，假設一層權重是 $K \times K \times N \times I$

在SYQ算法流程中，每一層首先經過 $Q_{l} = s i g n (W_{l}) ⨀ M_{l}$

SYQ相對於TTQ沒有特別明顯的改進，增長了 $α$

TSQ

以前方法中都是同時量化權重和激活值，TSQ[12]提出了先量化激活值再量化權重，針對激活值，提出了稀疏量化方法，文章認爲網絡壓縮和加速中稀疏能起到很大做用，以前的文章中都不多研究這個方向，且稀疏性在特殊硬件上會更有效，而權重量化能夠當作低bit非線性最小二乘迴歸問題，經過迭代方式求解。

獲得低比特權重是transformations，獲得低比特激活值是encodings。在encodings問題中，Relu函數自己就產生了50%的稀疏性，在attention機制的基本假設中，數值較大的激活值比數值較少的激活值更重要。因此將數值較小的正值變成0，這樣量化算法可以更能關注到較大的數值，量化的會更精細。n-bit均勻量化子quantizer將浮點激活值映射到 $2^{n}$

Q * ϵ (x) = a r g m a x Q ϵ E x \sim N (0, 1), x > ϵ [(Q

對權重進行量化，假設上一層的輸出是X，這一層的輸出是Y，將權重量化的問題變成一個非線性最小平方迴歸問題，將浮點尺度因子 $α$

在求解 $α$

對權重量化時，層與層之間能夠同時進行，沒有耦合關係，可是獨立進行量化時，量化偏差會在層與層之間累加，因此仍是考慮經過按層量化。

TSQ經過稀疏量化激活值和引入一箇中間變量z來產生新的量化方法，在alexnet上將權重激活值都量化到2bit時性能與浮點也是一致的。

LQ-Net

LQ-Net[13]目的是但願學習量化任意bit權重和激活值的quantizers，現有的量化方法都是一種人工設計的quantizers，例如均勻量化、對數量化，或者在網絡訓練之時已經計算好的quantizers(HGWQ)，若是針對不一樣的網絡能自適應的學到不一樣quantizers，性能應該會有所提高，因此本文就想聯合訓練一個量化的DNN網絡和對應的quantizers。

$q_{l}$

假設網絡被量化到K-bit，一個整數q能夠經過一個k維的basis係數向量v和k個bit的二值編碼向量 $e_{l}$

q =< [1 2 \dots 2 K - 1], [b 1 b 2 \dots b K] >

因爲二值編碼向量 $e_{l}$

對權重和激活值都進行相同的量化操做，卷積就變成了 $Q_{o u r s} (w, v^{w})^{T} Q_{o u r s} (a, v^{a}) = \sum_{i = 1}^{K_{w}} \sum_{j = 1}^{K_{a}} v_{i}^{w} v_{j}^{a} (b_{i}^{w} ⊙ b_{j}^{a})$

在量化和更新過程當中，在訓練開始以前經過一個經驗公式求出初始的v，而後先固定v更新B，此時v是已知的，能夠直接計算出全部levels，對比浮點數x落在哪一個區間就量化到對應的B。而後固定B更新v，經過最小化量化偏差 $\underset{v, B}{a r g m a x} | | B^{T} v - x | |_{2}^{2}$