論文源址:https://arxiv.org/abs/1511.07122前端
tensorflow Github:https://github.com/ndrplz/dilation-tensorflowgit
摘要github
該文提出了空洞卷積模型,在不下降分辨率的基礎上聚合圖像中不一樣尺寸的上下文信息,同時,空洞卷積擴大感覺野的範圍。算法
介紹網絡
語義分割具備必定的挑戰性,由於要進行像素級的分類,同時,要考慮不一樣尺寸大小的上下文信息的推理。經過卷積外加反向傳播的學習算法,使分類的準確率獲得大幅度的提高。由原始的分類到像素級的分類,本文提出了兩個問題:(1)從新構建的網絡的哪一部分是有必要的,同時,哪一個操做在進行密集分類時會下降分割結果的準確率。(2)設計一個專門用於進行密集分類的模型結構會提升分割的效果嗎?ide
分類網絡經過連續的卷積池化操做來融合不一樣尺寸的上下文信息,此過程當中,分辨率在不斷的減小,知道獲得一個最總的預測分類結果。與之相反,分割任務要求在完整的分辨率上進行多尺寸的預測。針對此問題有兩種解決方式:(1)經過反捲積操做恢復丟失的分辨率信息。這就引出一個疑問,中間下采樣的操做是不是真的有必要的。(2)提供多尺寸的輸入圖片,並將這些圖片的預測結果進行組合。一樣,這裏存在一個問題,對不一樣尺寸輸入的圖片,是否須要對他們的結果單獨進行分析。學習
該文提出的空洞卷積模型,並未減小分辨率同時,不須要對不一樣尺寸輸入圖片對輸出結果的影響進行分析。該結構主要用於分割任務,同時,值得注意的是空洞卷積的網絡中並未有池化或者下采樣的操做過程。經過空洞卷積便可得到較大的感覺野。優化
空洞卷積 ui
該文重點介紹空洞卷積的影響,而不是空洞卷積的構建,利用空洞卷積進行多尺寸的信息融合。空洞卷積核感覺野的大小成指數增加,以下圖。spa
卷積核大小kxk,dilation factor:n-推出感覺野大小爲:(k+1)x n - 1
多尺寸語義信息融合
語義模型經過融合多尺寸的上下文信息,來提升密集預測結構的效果。有C通道的輸入feature maps輸入模型後,輸出C通道的feature maps。
該文提出的一種基礎模型,包含7層網絡,其中使用了不一樣dilation factor的3x3的卷積。dilations爲【1,1,2,4,8,16】,每層上都有卷積操做,前兩層,每層卷積後都接着一個像素級的截斷處理,max(,0)。最後一層爲1x1xc的卷積,併產生輸出,,結構以下表,輸入爲64x64的圖片。
該文該開始用標準的初始化流程訓練網絡,結果並不理想。 卷積網絡通常使用隨機採樣分佈進行初始化操做。但這種方式對空洞卷積效果甚微,該文轉而用以下Identity初始化方式。
這種初始化方式,會讓前一層的信息直接流入下一層中,直覺上感到不利於反向傳播信息的傳遞,但實驗證實,這種擔憂是多餘的。對於不一樣深度的初始化按以下方式進行。
前端
該網絡的輸入爲三通道的彩色圖像,輸出爲21通道的特徵圖,基於VGG16進行改進,將其中最後兩層池化層與全鏈接層。對於移除的池化層後接的卷積層的dilation factor擴大2倍。所以,最後一層的卷積層的的dilated factor擴大爲4。經過空洞卷積,能夠利用原始分類網絡的參數初始化,同時產生更高分辨率的輸出。該模型,在Pascal VOC2012數據集上進行訓練,基於SGD優化方法,mini-batch 大小爲14,學習率爲1e-3,動量大小爲0.9,迭代60000次。
實驗
reference
Badrinarayanan, Vijay, Handa, Ankur, and Cipolla, Roberto. SegNet: A deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling. arXiv:1505.07293, 2015.
Brostow,GabrielJ.,Fauqueur,Julien,andCipolla,Roberto. Semanticobjectclassesinvideo: Ahigh-definition ground truth database. Pattern Recognition Letters, 30(2), 2009.
Chen, Liang-Chieh, Papandreou, George, Kokkinos, Iasonas, Murphy, Kevin, and Yuille, Alan L. Semantic image segmentation with deep convolutional nets and fully connected CRFs. In ICLR, 2015a.