https://study.163.com/course/courseMain.htm?courseId=1006390023&share=2&shareId=400000000398149git
本文連接:https://blog.csdn.net/yeler082/article/details/78370795
原文連接:Deformable Convolutional Networks 代碼連接:https://github.com/msracver/Deformable-ConvNetsgithub
1、首先看看文章的摘要網絡
因爲構造卷積神經網絡 (CNN) 所用的模塊中幾何結構是固定的,其幾何變換建模的能力本質上是有限的。在咱們的工做中,咱們引入了兩種新的模塊來提升卷積神經網絡 (CNN) 對變換的建模能力,便可變形卷積 (deformable convolution) 和可變形興趣區域池化 (deformable ROI pooling)。它們都是基於在模塊中對空間採樣的位置信息做進一步位移調整的想法,該位移可在目標任務中學習獲得,並不須要額外的監督信號。新的模塊能夠很方便在現有的卷積神經網絡 (CNN) 中取代它們的通常版本,並能很容易進行標準反向傳播端到端的訓練,從而獲得可變形卷積網絡 (deformable convolutional network)。大量的實驗驗證了咱們的方法在目標檢測和語義分割這些複雜視覺任務上的有效性。框架
2、進一步的分析機器學習
這是一種對傳統方塊卷積的改進核,本質是一種抽樣改進。ide
談到抽樣,人腦好像天生知道如何抽樣得到有用特徵,而現代機器學習就像嬰兒同樣蹣跚學步。咱們學會用cnn自動提取有用特徵,殊不知用什麼樣的卷積纔是最有效的。咱們習慣於方塊卷積核窗口,而Jifeng Dai的work認爲方塊不是最好的形狀。性能
標準卷積中的規則格點採樣是致使網絡難以適應幾何形變的「罪魁禍首」。爲了削弱這個限制,研究員們對卷積核中每一個採樣點的位置都增長了一個偏移的變量。經過這些變量,卷積核就能夠在當前位置附近隨意的採樣,而再也不侷限於以前的規則格點。這樣擴展後的卷積操做被稱爲可變形卷積(deformable convolution)。學習
3、用圖說話測試
圖1:展現了卷積核大小爲 3x3 的正常卷積和可變形卷積的採樣方式,(a) 所示的正常卷積規律的採樣 9 個點(綠點),(b)(c)(d) 爲可變形卷積,在正常的採樣座標上加上一個位移量(藍色箭頭),其中(c)(d) 做爲 (b) 的特殊狀況,展現了可變形卷積能夠做爲尺度變換,比例變換和旋轉變換的特殊狀況spa
事實上,可變形卷積單元中增長的偏移量是網絡結構的一部分,經過另一個平行的標準卷積單元計算獲得,進而也能夠經過梯度反向傳播進行端到端的學習。加上該偏移量的學習以後,可變形卷積核的大小和位置能夠根據當前須要識別的圖像內容進行動態調整,其直觀效果就是不一樣位置的卷積核採樣點位置會根據圖像內容發生自適應的變化,從而適應不一樣物體的形狀、大小等幾何形變。然而,這樣的操做引入了一個問題,即須要對不連續的位置變量求導。做者在這裏借鑑了以前Spatial Transformer Network和若干Optical Flow中warp操做的想法,使用了bilinear插值將任何一個位置的輸出,轉換成對於feature map的插值操做。同理,相似的想法能夠直接用於 (ROI) Pooling中改進。
Figure 2 展現了可變形卷積框架,首先經過一個小卷積層(綠色)的輸出獲得可變形卷積所須要的位移量,而後將其做用在卷積核(藍色)上,達到可變形卷積的效果。
Figure 3 展現了可變形興趣區域池化框架。首先經過標準的興趣區域池化(綠色)得到興趣區域對應的特徵,該特徵經過一個全鏈接層獲得興趣區域每一個部位的位移量。用該位移做用在可變形興趣區域池化(藍色)上,以得到不侷限於興趣區域固定網格的特徵
Figure 4 展現了兩層結構,擁有標準固定感覺野的卷積層 (a) 與擁有自適應感覺野的可變性卷積層(b)。最上方是兩個在不一樣大小的物體上的激活單元,中間是該單元所需的採樣位置,最下方是中間的採樣點分別所需的採樣位置
Figure 5 對可變形卷積的效果進行了可視化,其中左中右分別展現了激活單元(綠點)倒推三層可變形卷積層之後在背景/小物體/大物體上的所採樣的點
Figure 6 對可變形興趣區域池化的效果進行可視化,使用了 R-FCN,興趣區域網格大小爲 3x3,能夠發現如今池化區域基本覆蓋在物體上。
Table 1 在各類方法和各類數據集上,使用不一樣層數的可變形卷積對結果帶來的影響,其中 DeepLab 在 VOC2012 與 Cityscapes 的訓練集上進行訓練,在驗證集上進行測試,class-aware RPN, Faster R-CNN 與 R-FCN 在 VOC2007 與 VOC2012 的訓練驗證集上進行訓練,在 VOC2007 的測試集上進行測試。
4、可變卷積網絡的新思路:簡明深入的網絡結構變革
可變形卷積單元具備諸多良好的性質。它不須要任何額外的監督信號,能夠直接經過目標任務學習獲得。它能夠方便地取代任何已有視覺識別任務的卷積神經網絡中的若干個標準卷積單元,並經過標準的反向傳播進行端到端的訓練。是對於傳統卷積網絡簡明而又意義深遠的結構革新,具備重要的學術和實踐意義。它適用於全部待識別目標具備必定幾何形變的任務(幾乎全部重要的視覺識別任務都有此特色,人臉、行人、車輛、文字、動物等),能夠直接由已有網絡結構擴充而來,無需從新預訓練。它僅增長了不多的模型複雜度和計算量,且顯著提升了識別精度。例如,在用於自動駕駛的圖像語義分割數據集(CityScapes)上,可變形卷積神經網絡將準確率由70%提升到了75%。
此外,經過增長偏移量來學習幾何形變的思想還可方便地擴展到其它計算單元中去。例如,目前業界最好的物體檢測方法都使用了基於規則塊採樣的興趣區域(region of interests, ROI)池化(pooling)。在該操做中,對於每一個採樣的規則塊增長相似的偏移量,從而獲得可變形興趣區域池化 (deformable ROI pooling)。由此所得到的新的物體檢測方法也取得了顯著的性能提高。
近年來,與神經網絡結構相關的研究工做層出不窮,大可能是對於各類基本網絡單元鏈接關係的研究。不一樣於大部分已有的工做,可變形卷積網絡首次代表了能夠在卷積網絡中顯式地學習幾何形變。它修改了已使用二十餘年的基本卷積單元結構,在重要的物體檢測和語義分割等計算機視覺任務上得到了重大的性能提高。
能夠想象,在不遠的將來,在更多的計算機視覺識別任務中(如文字檢測、視頻物體檢測跟蹤等)都將看到它的成功應用。
https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149(博主視頻教學主頁)