原文連接:http://blog.csdn.net/myarrow/article/details/51878004git
1)CNN:Convolutional Neural Networks github
2)FC:Fully Connected算法
3)IoU:Intersection over Union (IoU的值定義:Region Proposal與Ground Truth的窗口的交集比並集的比值,若是IoU低於0.5,那麼至關於目標仍是沒有檢測到)網絡
4)ICCV:International Conference on Computer Vision架構
5)R-CNN:Region-based Convolutional Neural Networksapp
6)AR:Average Recall框架
7)mAP:mean Average Precisionide
8)RPN:Region Proposal Networks函數
9)FAIR:Facebook AI Researchpost
10)w.r.t.:with respect to
11)Image Classification(what?):圖像分類
12)Object Detection(what+where?)、Localization、Segmentation:對角檢測、定位、分割
卷積計算過程以下圖所示:
咱們剛纔描述的便是卷積。能夠把卷積想象爲信號處理中的一種奇特乘法。也可將兩個矩陣生成點積想象爲兩個函數。圖像就是底層函數,而過濾器就是在其上「捲過」的函數。
圖像的主要問題在於其高維度,緣由是對高維度的處理時間和運算能力成本很高。卷積網絡就是爲了經過各類方式下降圖像的維度而設計的。過濾器步幅便是減小維度的一種方法,另外一種方法是降採樣。
1) 參數個數由Filter定義及Filter個數決定,其公式爲:
The number of parameters = (FxFxD + 1) * K
2)一個Activation Map共享一個Filter及其權重和誤差
3)Activation Map個數與Filter個數相同
1) Pooling在每一個Activation Map上單獨作,在Pooling以後,Activation Map數量不變
Pooling層通常用於降維,將一個kxk的區域內取平均或取最大值,做爲這一個小區域內的特徵,傳遞到下一層。傳統的Pooling層是不重疊的,使Pooling層重疊能夠下降錯誤率,並且對防止過擬合有必定的效果。
2)Pooling過程描述(Pooling過程不須要參數)
1)深度革命中遇到的問題:
隨着CNN網絡的發展,尤爲的VGG網絡的提出,你們發現網絡的層數是一個關鍵因素,貌似越深的網絡效果越好。可是隨着網絡層數的增長,問題也隨之而來。
(1)第一個問題: vanishing/exploding gradients(即梯度消失或爆炸):這就致使訓練難以收斂。可是隨着 normalized initialization and BN(Batch Normalization)的提出,解決了梯度消失或爆炸問題。
(2)第二個問題:網絡越深,訓練偏差和測試偏差越大。在收斂問題解決後,又一個問題暴露出來:隨着網絡深度的增長,系統精度獲得飽和以後,迅速的下滑。讓人意外的是這個性能降低不是過擬合致使的。對一個合適深度的模型加入額外的層數致使訓練偏差變大。以下圖所示,可經過Deep Residual Learning 框架來解決這種由於深度增長而致使準確性降低問題。
傳統目標檢測流程:
1)區域選擇(窮舉策略:採用滑動窗口,且設置不一樣的大小,不一樣的長寬比對圖像進行遍歷,時間複雜度高)
2)特徵提取(SIFT、HOG等;形態多樣性、光照變化多樣性、背景多樣性使得特徵魯棒性差)
3)分類器(主要有SVM、Adaboost等)
傳統目標檢測的主要問題:
1)基於滑動窗口的區域選擇策略沒有針對性,時間複雜度高,窗口冗餘
2)手工設計的特徵對於多樣性的變化沒有很好的魯棒性
1)Region Proposal:能夠解決滑動窗口的問題
候選區域(Region Proposal):是預先找出圖中目標可能出現的位置。它利用了圖像中的紋理、邊緣、顏色等信息,能夠保證在選取較少窗口(幾千甚至幾百)的狀況下保持較高的召回率(Recall)。
經常使用的Region Proposal有(詳見"What makes for effective detection proposals?"):
- Selective Search
- Edge Boxes
2)R-CNN:能夠解決特徵魯棒性的問題
(1) 輸入測試圖像
(2) 利用selective search算法在圖像中從下到上提取2000個左右的Region Proposal
(3) 將每一個Region Proposal縮放(warp)成227x227的大小並輸入到CNN,將CNN的fc7層的輸出做爲特徵
(4) 將每一個Region Proposal提取到的CNN特徵輸入到SVM進行分類
注:1)對每一個Region Proposal縮放到同一尺度是由於CNN全鏈接層輸入須要保證維度固定。
2)上圖少畫了一個過程——對於SVM分好類的Region Proposal作邊框迴歸(bounding-box regression),邊框迴歸是對region proposal進行糾正的線性迴歸算法,爲了讓region proposal提取到的窗口跟目標真實窗口更吻合。由於region proposal提取到的窗口不可能跟人手工標記那麼準,若是region proposal跟目標位置偏移較大,即使是分類正確了,可是因爲IoU(region proposal與Ground Truth的窗口的交集比並集的比值)低於0.5,那麼至關於目標仍是沒有檢測到。
3)R-CNN缺點:
(1) 訓練分爲多個階段,步驟繁瑣: 微調網絡+訓練SVM+訓練邊框迴歸器
(2) 訓練耗時,佔用磁盤空間大:5000張圖像產生幾百G的特徵文件
(3) 速度慢: 使用GPU, VGG16模型處理一張圖像須要47s。
(4) 測試速度慢:每一個候選區域須要運行整個前向CNN計算
(5) SVM和迴歸是過後操做:在SVM和迴歸過程當中CNN特徵沒有被學習更新
針對速度慢的這個問題,SPP-NET給出了很好的解決方案。
SSP-Net:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
先看一下R-CNN爲何檢測速度這麼慢,一張圖都須要47s!仔細看下R-CNN框架發現,對圖像提完Region Proposal(2000個左右)以後將每一個Proposal當成一張圖像進行後續處理(CNN提特徵+SVM分類),實際上對一張圖像進行了2000次提特徵和分類的過程!這2000個Region Proposal不都是圖像的一部分嗎,那麼咱們徹底能夠對圖像提一次卷積層特徵,而後只須要將Region Proposal在原圖的位置映射到卷積層特徵圖上,這樣對於一張圖像咱們只須要提一次卷積層特徵,而後將每一個Region Proposal的卷積層特徵輸入到全鏈接層作後續操做。(對於CNN來講,大部分運算都耗在卷積操做上,這樣作能夠節省大量時間)。
如今的問題是每一個Region Proposal的尺度不同,直接這樣輸入全鏈接層確定是不行的,由於全鏈接層輸入必須是固定的長度。SPP-NET剛好能夠解決這個問題。
因爲傳統的CNN限制了輸入必須固定大小(好比AlexNet是224x224),因此在實際使用中每每須要對原圖片進行crop或者warp的操做:
- crop:截取原圖片的一個固定大小的patch
- warp:將原圖片的ROI縮放到一個固定大小的patch
不管是crop仍是warp,都沒法保證在不失真的狀況下將圖片傳入到CNN當中:
- crop:物體可能會產生截斷,尤爲是長寬比大的圖片。
- warp:物體被拉伸,失去「原形」,尤爲是長寬比大的圖片
SPP爲的就是解決上述的問題,作到的效果爲:無論輸入的圖片是什麼尺度,都可以正確的傳入網絡。
具體思路爲:CNN的卷積層是能夠處理任意尺度的輸入的,只是在全鏈接層處有限制尺度——換句話說,若是找到一個方法,在全鏈接層以前將其輸入限制到等長,那麼就解決了這個問題。
具體方案以下圖所示:
若是原圖輸入是224x224,對於conv5出來後的輸出,是13x13x256的,能夠理解成有256個這樣的filter,每一個filter對應一張13x13的activation map。若是像上圖那樣將activation map pooling成4x4 2x2 1x1三張子圖,作max pooling後,出來的特徵就是固定長度的(16+4+1)x256那麼多的維度了。若是原圖的輸入不是224x224,出來的特徵依然是(16+4+1)x256;直覺地說,能夠理解成將原來固定大小爲(3x3)窗口的pool5改爲了自適應窗口大小,窗口的大小和activation map成比例,保證了通過pooling後出來的feature的長度是一致的。
使用SPP-NET相比於R-CNN能夠大大加快目標檢測的速度,可是依然存在着不少問題:
(1) 訓練分爲多個階段,步驟繁瑣: 微調網絡+訓練SVM+訓練訓練邊框迴歸器
(2) SPP-NET在微調網絡的時候固定了卷積層,只對全鏈接層進行微調,而對於一個新的任務,有必要對卷積層也進行微調。(分類的模型提取的特徵更注重高層語義,而目標檢測任務除了語義信息還須要目標的位置信息)
針對這兩個問題,RBG又提出Fast R-CNN, 一個精簡而快速的目標檢測框架。
有了前邊R-CNN和SPP-NET的介紹,咱們直接看Fast R-CNN的框架圖:
與R-CNN框架圖對比,能夠發現主要有兩處不一樣:一是最後一個卷積層後加了一個ROI pooling layer,二是損失函數使用了多任務損失函數(multi-task loss),將邊框迴歸直接加入到CNN網絡中訓練。
(1) ROI pooling layer其實是SPP-NET的一個精簡版,SPP-NET對每一個proposal使用了不一樣大小的金字塔映射,而ROI pooling layer只須要下采樣到一個7x7的特徵圖。對於VGG16網絡conv5_3有512個特徵圖,這樣全部region proposal對應了一個7*7*512維度的特徵向量做爲全鏈接層的輸入。
(2) R-CNN訓練過程分爲了三個階段,而Fast R-CNN直接使用softmax替代SVM分類,同時利用多任務損失函數邊框迴歸也加入到了網絡中,這樣整個的訓練過程是端到端的(除去region proposal提取階段)。
(3) Fast R-CNN在網絡微調的過程當中,將部分卷積層也進行了微調,取得了更好的檢測效果。
性能對比數據:
1)Fast R-CNN優勢:
Fast R-CNN融合了R-CNN和SPP-NET的精髓,而且引入多任務損失函數,使整個網絡的訓練和測試變得十分方便。在Pascal VOC2007訓練集上訓練,在VOC2007測試的結果爲66.9%(mAP),若是使用VOC2007+2012訓練集訓練,在VOC2007上測試結果爲70%(數據集的擴充能大幅提升目標檢測性能)。使用VGG16每張圖像總共須要3s左右。
2)Fast R-CNN 缺點:
Region Proposal的提取使用selective search,目標檢測時間大多消耗在這上面(提Region Proposal2~3s,而提特徵分類只需0.32s),沒法知足實時應用,並且並無實現真正意義上的端到端訓練測試(region proposal使用selective search先提取處來)。那麼有沒有可能直接使用CNN直接產生Region Proposal並對其分類?Faster R-CNN框架就是符合這樣須要的目標檢測框架。
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
在Region Proposal + CNN分類的這種目標檢測框架中,Region Proposal質量好壞直接影響到目標檢測任務的精度。若是找到一種方法只提取幾百個或者更少的高質量的假選窗口,並且召回率很高,這不但能加快目標檢測速度,還能提升目標檢測的性能(假陽例少)。RPN(Region Proposal Networks)網絡應運而生。
1)RPN的核心思想
是使用卷積神經網絡直接產生Region Proposal,使用的方法本質上就是滑動窗口。RPN的設計比較巧妙,RPN只需在最後的卷積層上滑動一遍,由於Anchor機制和邊框迴歸能夠獲得多尺度多長寬比的Region Proposal。
2)Faster R-CNN架構
3)RPN架構
RPN採用任意大小的的圖像做爲輸入,並輸出一組候選的矩形,每一個矩形都有一個對象分數。
RPN被用於訓練直接產生候選區域,不須要外部的候選區域。
Anchor是滑動窗口的中心,它與尺度和長寬比相關,默認採3種尺度(128,256,512),3種長寬比(1:1,1:2,2:1),則在每個滑動位置k=9 anchors。
咱們直接看上邊的RPN網絡結構圖(使用了ZF<Zeiler and Fergus model>模型),給定輸入圖像(假設分辨率爲600*1000),通過卷積操做獲得最後一層的卷積特徵圖(大小約爲40*60)。在這個特徵圖上使用3*3的卷積核(滑動窗口)與特徵圖進行卷積,最後一層卷積層共有256個feature map,那麼這個3*3的區域卷積後能夠得到一個256維的特徵向量,後邊接cls layer(box-classification layer)和reg layer(box-regression layer)分別用於分類和邊框迴歸(跟Fast R-CNN相似,只不過這裏的類別只有目標和背景兩個類別)。3*3滑窗對應的每一個特徵區域同時預測輸入圖像3種尺度(128,256,512),3種長寬比(1:1,1:2,2:1)的region proposal,這種映射的機制稱爲anchor。因此對於這個40*60的feature map,總共有約20000(40*60*9)個anchor,也就是預測20000個region proposal。
這樣設計的好處是什麼呢?雖然如今也是用的滑動窗口策略,可是:滑動窗口操做是在卷積層特徵圖上進行的,維度較原始圖像下降了16*16倍(中間通過了4次2*2的pooling操做);多尺度採用了9種anchor,對應了三種尺度和三種長寬比,加上後邊接了邊框迴歸,因此即使是這9種anchor外的窗口也能獲得一個跟目標比較接近的region proposal。
4)總結
Faster R-CNN將一直以來分離的region proposal和CNN分類融合到了一塊兒,使用端到端的網絡進行目標檢測,不管在速度上仍是精度上都獲得了不錯的提升。然而Faster R-CNN仍是達不到實時的目標檢測,預先獲取Region Proposal,而後在對每一個Proposal分類計算量仍是比較大。比較幸運的是YOLO這類目標檢測方法的出現讓實時性也變的成爲可能。
總的來講,從R-CNN, SPP-NET, Fast R-CNN, Faster R-CNN一路走來,基於深度學習目標檢測的流程變得愈來愈精簡,精度愈來愈高,速度也愈來愈快。能夠說基於Region Proposal的R-CNN系列目標檢測方法是當前目標最主要的一個分支。
《R-FCN: Object Detection via Region-based Fully Convolutional Networks》
顧名思議:全卷積網絡,就是所有是卷積層,而沒有全鏈接層(fc)。
R-FCN(基於區域的檢測器)的方法是:在整個圖像上共享計算,經過移除最後的fc層實現(即刪除了全部的子網絡)。使用「位置敏感的得分圖」來解決了圖像分類平移不變性與對象檢測平移變化之間的矛盾。
此矛盾爲:物體分類要求平移不變性越大越好 (圖像中物體的移動不用區分),而物體檢測要求有平移變化。因此,ImageNet 分類領先的結果證實儘量有平移不變性的全卷積結構更受親睞。另外一方面,物體檢測任務須要一些平移變化的定位表示。好比,物體的平移應該使網絡產生響應,這些響應對描述候選框覆蓋真實物體的好壞是有意義的。咱們假設圖像分類網絡的卷積層越深,則該網絡對平移越不敏感。
CNN隨着網絡深度的增長,網絡對於位置(Position)的敏感度愈來愈低,也就是所謂的translation-invariance,可是在Detection的時候,須要對位置信息有很強的的敏感度。
那麼ResNet-101的detection是怎麼作的?
在R-FCN以前,很簡單,把ROI-pooling層放到了前面的卷積層,而後後面的卷積層不共享計算,這樣一能夠避免過多的信息損失,二能夠用後來的卷積層學習位置信息。
R-FCN:採用全卷積網絡結構做爲 FCN,爲給 FCN 引入平移變化,用專門的卷積層構建位置敏感分數地圖 (position-sensitive score maps)。每一個空間敏感地圖編碼感興趣區域的相對空間位置信息。 在FCN上面增長1個位置敏感 RoI 池化層來監管這些分數地圖。
R-FCN思路就是利用最後一層網絡經過FCN構成一個position-sensitive的feature map。具體而言,每個proposal的位置信息都須要編碼,那麼先把proposal分紅k*k個grid,而後對每個grid進行編碼。在最後一層map以後,再使用卷積計算產生一個k*k*(C+1)的map(k*k表明總共的grid數目,C表明class num,+1表明加入一個背景類)。
RPN 給出感興趣區域,R-FCN 對該感興趣區域分類。R-FCN 在與 RPN 共享的卷積層後多加1個卷積層。因此,R-FCN 與 RPN 同樣,輸入爲整幅圖像。但 R-FCN 最後1個卷積層的輸出從整幅圖像的卷積響應圖像中分割出感興趣區域的卷積響應圖像。
R-FCN 最後1個卷積層在整幅圖像上爲每類生成k*k個位置敏感分數圖,有C類物體外加1個背景,所以有k*k(C+1)個通道的輸出層。k*k個分數圖對應描述位置的空間網格。好比,k×k=3×3,則9個分數圖編碼單個物體類的 {top−left,top−center,top−right,...,bottom−right}。
R-FCN 最後用位置敏感 RoI 池化層,給每一個 RoI 1個分數。選擇性池化圖解:看上圖的橙色響應圖像 (top−left),摳出橙色方塊 RoI,池化橙色方塊 RoI 獲得橙色小方塊 (分數);其它顏色的響應圖像同理。對全部顏色的小方塊投票 (或池化) 獲得1類的響應結果。
產生完了這張map以後,再根據proposal產生一個長寬各爲k,channel數目爲C+1的score map。具體產生score map的方法是,假如k=3,C=20,那麼score map的20個類每一個類都有3*3的feature,一共9個格子,每個格子都記錄了空間信息。而這每個類的每個格子都對應前面那個channel數爲3*3*21的大map的其中一個channel的map。如今把score map中的格子對應的區域的map中的信息取平均,而後這個平均值就是score map格子中的值。最後把score map的值進行vote(avg pooling)來造成一個21維的向量來作分類便可。
當分類正確時,該類通道的位置敏感分數圖 (中間) 的大多數橙色實線網格內的響應在整個 RoI 位置範圍內最強。
對應的bbox regression只須要把C+1設成4就能夠了。
R-FCN採用的一些方法比Faster R-CNN的baseline提升了3個點,而且比原來Faster R-CNN更快(由於所有計算都共享了)。可是和改進過的Faster R-CNN相比(ROI Pooling提早那種)提升了0.2個點,速度快了2.5倍。因此目前爲止這個方法的結果應該是全部方法中速度和Performance結合的最好的。
Faster R-CNN的方法目前是主流的目標檢測方法,可是速度上並不能知足實時的要求。YOLO一類的方法慢慢顯現出其重要性,這類方法使用了迴歸的思想,即給定輸入圖像,直接在圖像的多個位置上回歸出這個位置的目標邊框以及目標類別。
Localization:
- Find a fixed number of objects (one or many)
- L2 regression from CNN features to box coordinates
- Much simpler than detection; consider it for your projects!
- Overfeat: Regression + efficient sliding window with FC -> conv conversion
- Deeper networks do better
Object Detection:
- Find a variable number of objects by classifying image regions
- Before CNNs: dense multiscale sliding window (HoG, DPM)
- Avoid dense sliding window with region proposals
- R-CNN: Selective Search + CNN classification / regression
- Fast R-CNN: Swap order of convolutions and region extraction
- Faster R-CNN: Compute region proposals within the network
- Deeper networks do better
Implementation as Matrix Multiplication. Note that the convolution operation essentially performs