論文地址:https://arxiv.org/abs/1507.06149網絡
權值矩陣對應的兩列i,j,若是差別很小或者說沒有差別的話,就把j列與i列上(合併,也就是去掉j列),而後在下一層中把第j行的權值累加在第i像。 這個過程就想象一下隱藏層中少一個單元,對權值矩陣的影響。 總體思想仍是考慮權值矩陣中列的類似性,有點相似於聚類。 而後做者給出了一種計算類似性的方法。3d
假設一個隱藏層,一個輸出單元,那麼網絡表達式以下:blog
咱們能夠看到下面這個圖:若是兩個權值集合W1和W4相等或者相差不大的話,咱們能夠合併W1和W4,而後累加輸出的權值。也就說下圖對應兩個權值矩陣,在第一個權值矩陣中,刪除第4列,而後在第二個權值矩陣中將第四行累加在第一行上。get
可是有一個問題就是,權值徹底相等的可能比較少或者沒有,那麼咱們就把條件放寬,差別比較小的,那麼怎麼衡量呢。請看下面的分析。class
若是Wi和Wj相等,那麼兩個輸出的偏差爲:原理
進一步化簡,而後兩邊求指望能夠獲得如下:方法
那麼咱們能夠獲得判斷是否能夠合併的條件:im
解釋就是:若是兩列權值的差別較少,且aj做爲下一層的輸入權值不大,那麼就能夠將i,j合併。db
MNIST上85%的壓縮,AlexNet上35%的壓縮。這篇文章的可解釋性仍是很強的,可是可能效果沒有這麼的好,因此發在了BMVC上吧。img