人工智能正在驅動新一輪的商業變革,而算法技術則是推進核心底層技術的重要力量。算法崛起時代,技術浪潮可謂一日千里,算法工程師也只有不斷精進自身技術,才能與時俱進、馭浪前行。近日,奇點雲算法工程師三角肌在目標檢測算法領域又有新突破。算法
摘要網絡
卷積神經網絡對目標檢測的精度有着顯著的提高,而且隨着卷積神經網絡的深度加深,對目標檢測精度提高也越大,可是也須要更多的浮點計算。許多研究者經過知識蒸餾的方法,經過把一個更深更大的教師網絡中的知識轉移到一個小的學生網絡中,以提升學生網絡在目標檢測中的效果。而大部分知識蒸餾的方法都須要設計複雜的代價函數,而且多數針對兩步目標檢測算法,本文針對一步目標檢測算法提出一個乾淨有效的知識蒸餾方案。將教師網絡生成的特徵層做爲真實樣本,學生網絡生成的特徵層作爲假樣本,並對二者作生成對抗訓練,以提升學生網絡在一步目標檢測中的表現。架構
1 Introduction框架
近些年來,隨着目標檢測算法的發展,研究者們發現利用更深更大的卷積神經網絡做爲骨架,對目標檢測算法的精度提高越大。而且隨着目標檢測算法的檢測精度提高,使視覺檢測算法逐漸從非關鍵性領域,走向關鍵性領域(好比無人駕駛和醫療等領域)。可是爲了保證檢測精度,不得不使用更大的卷積神經網絡做爲骨架,形成檢測速度降低,計算設備成本增長。所以許多研究者在確保檢測精度的前提下,提升檢測速度提出了不少方法和總結,如經過深度分離卷積 [1,2],或者經過點羣卷積(pointwise group convolution)和通道混洗(channel shuffle)[3, 4] 來下降卷積神經網絡浮點運算次數的方法,在保證骨架網絡精度和容量的狀況下減小計算量。雖然得到可觀的提速效果,可是這些方法須要精心設計和調整骨架網絡。不少研究者認爲更深的骨架網絡雖然有着更大的網絡容量,所以在圖像分類、目標檢測等任務上有着更優秀的表現。可是一些特定的任務並不須要這麼大的容量,因此在保證卷積神經網絡精度的狀況和下,對卷積神經網絡作壓縮、量化、通道減枝等[5, 6, 7, 8, 9]。ide
另外一方面,有關於知識蒸餾的工做代表[10, 11, 12, 13],使用一個更深更大的模型,而且在充分訓練完畢後做爲teacher net,而後再選取一個比較淺的模型做爲student net,最後使用teacher net輸出的結果或者中間結果做爲soft label結合真實樣本的true label同時訓練student net,能夠極大的提高student net在特定任務上的表現。可是大部分這些方法都須要設計很是複雜的代價函數和訓練方式,而且這些方法多用於圖像分類和兩步目標檢測等,極少用於一步目標檢測。所以,咱們須要一個更加簡單而有效,而且能夠適用於一步目標檢測的知識蒸餾方式。本文提出一種簡單而有效知識蒸餾神經網絡架構,而且能夠明顯的提高student net在一步目標檢測網絡的表現。和常規的知識蒸餾方式不一樣的是,咱們參考對抗生成的神經網絡架構[14],將重型目標檢測神經網絡和輕型目標檢測神經網絡的骨架分別拆分出來做爲teacher net和student net,而後把teacher net 生成的feature map做爲真實樣本,而student net則做爲生成器,並把student net生成的feature map做爲假樣本,最後根據真實樣本和假樣本設計一個神經網絡做爲判別器,作生成對抗訓練。函數
咱們的貢獻主要有兩點:學習
1 提出一種不須要設計複雜的代價函數的網絡架構,而且能夠適用於一步目標檢測。測試
2 利用對抗生成網絡架構,避免複雜的知識遷移設計,讓student net自動的從teacher net中獲取暗知識。優化
2 Related Worksui
深度學習目標檢測算法架構主要分爲兩種,一種是一步檢測,好比Liu W等人提出的SSD[15],直接經過經過卷積神經網絡迴歸出物體的位置和類別,另外一種是二步檢測,如girshick等人提出的fast rcnn[16],以及後來Faster-RCNN [17] and R-FCN [18]等,首先經過卷積神經網絡迴歸候選框,最後根據候選框再次識別每一個候選框的類別,並回歸出正確的位置。
網絡裁剪,許多研究者認爲深度神經網絡被過分參數化,而且有不少冗餘的神經元和鏈接,He Y等人認爲[8],cnn每層神經元都是稀疏的,利用lasso regression迴歸找出cnn每層最有表明性的神經元重構該層的輸出。Zhuang Z等人[9]認爲layer-by-layer進行通道剪枝會影響cnn的鑑別能力,因此經過在fine-tune和剪枝階段加入輔助loss,來保留cnn每層的鑑別能力。
網絡量化, Wu J等人[20]經過k-means聚類算法加速和壓縮模型的卷積層和全鏈接層,經過減少每層輸出響應的估計偏差可實現更好的量化結果,並提出一種有效的訓練方案抑制量化後的多層累積偏差 。Jacob B[21]等人提出將weights和inputs量化爲uint8 bias量化爲unit32同時訓練期間前向時候採用量化,反向修正偏差不量化,以確保cnn表現的狀況下提升inference速度。
知識蒸餾是一種壓縮模型並確保準確的一種方法。hinton 等人提出[2]將teacher net輸出的結果做爲soft label,並提倡使用溫度交叉熵而不是L2損失。romero 等人[19]認爲須要更多的unlabeled data讓student net去mimic才能使student net經可能的接近teacher net,Chen G[12]等人在優化2步目標檢測網絡分別將teacher net的中間feature map 以及rpn/rcnn的暗知識提取出來讓student net去mimic。其餘研究者也有將teacher net的attention信息給student網絡,如Zagoruyko S[22]等人提出spatial-attention,將teacher net的熱力信息傳遞給student net。Yim J等人[23]將teacher net層與層之間的關係做爲student網絡mimic的目標。可是他們設計的的知識蒸餾都是要設計很是複雜的loss function,和複雜的暗知識的提取方式,而且這些方法可能是在兩步目標檢測算法中不多用於一步目標檢測中。爲了能用一個簡單有效的知識蒸餾的方式,咱們參考生成對抗網絡的架構方式[14]將教師網絡生成的特徵層做爲真實樣本,學生網絡生成的特徵層作爲假樣本,並對二者作生成對抗訓練,以提升學生網絡在一步目標檢測中的表現。
3 Method
在本文中,咱們採用一步目標檢測算法SSD[15]做爲咱們的目標檢測算法,SSD目標檢測算法結構主要分紅兩部分,1)骨架網絡,做爲特徵提取器。2)Head,在骨架網絡提取的特徵上,檢測出目標的類別和位置。爲了能獲取更好的知識蒸餾效果,合理利用這個兩個部分相當重要。
3.1 Overall Structure
fig 1爲咱們算法模型的總體結構,咱們首先使用一個容量更大的SSD模型,在充分訓練後將該SSD模型拆分紅骨架網絡和SSD-Head,其中骨架網絡做爲teacher net,而後再挑選一個容量較小的CNN做爲student net。咱們把teacher net生成的多個feature map做爲true sample,而student net生成的多個feature map做爲fake sample,而且將true sample和fake sample送入D Net中相對應的每一個判別網絡(fig 2)中,同時把fake sample輸入到SSD-Head中。
3.2 Training Process
(1)
公式1中的N表明batchsize的大小,D表明判別網絡,Teacher和Student分別表明teacher net和student net, θt、θs、θd分別表明teacher net、student net 和D Net模塊中每一個判別網絡的weights。Lconf表示SSD中分類的損失函數,Lloc表示SSD中邊界框的損失函數。
4 Experiment
在本章節,咱們將在PASCAL VOC中作實驗來驗證咱們的方法,包含20個類別。而且咱們的方法訓練的硬件爲two NVIDIA GTX 1080Ti GPUs。訓練所用的軟件框架爲gluoncv。
4.1 Training and testing data
因爲時間的關係,咱們訓練使用的數據集Pascal Voc 2012trainval和Pascal Voc 2007 trainval sets,測試數據集爲Pascal Voc 2007 test sets。該數據集包含檢測物體的類別和位置信息。評估標準按照Pascal Voc競賽所約定的,經過iou=0.5時的mAP來評估模型檢測精度。而coco數據集上,使用coco 2017 trainset做爲訓練集,coco 2017 test做爲測試集。
4.2 Results
咱們將原生的SSD和在不一樣的Teacher net下知識蒸餾的SSD作比較,最高能夠提高student net 2.8mAP。不過有趣的是,當teacher net爲ResNet101,student net爲ResNet18時,提高的效果反而不如ResNet50。而在coco上使用resnet50做爲teacher net,moblinet做爲student net,提高Moblient-SSD 4個mAP。
Table 1. Different student nets are not used GAN-knowledge distillation and the use of a GAN-knowledge distillation in different teacher net test results.
目前已經將該方法使用在faster rcnn上,考慮到時間,目前僅僅在pascal voc 2007上進行測試,coco正在訓練。
Table 2. moblienetv1 use GAN-knowledge distillation in coco.
Table 3. Teacher net爲骨架網絡爲ResNet101的faster rcnn,且使用Pascal Voc 2007 trainval做爲訓練集,在Pascal Voc 2007 test測試集上mAP爲74.8+。第一行和第二行使用GAN Knowledge Distillation[1]方法,第三行爲cvpr2019的 Distilling Object Detectors with Fine-grained Feature Imitation[2]的方法效果。