文章:html
MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONSgit
讀到這篇論文,參考了博客:http://www.javashuo.com/article/p-rbfxfjdx-eq.htmlgithub
摘要:網絡
在語義分割中,咱們開發了一個新的卷積網絡模塊,專門設計用於密集預測。該模塊在不丟失分辨率的狀況下,採用了卷積法對多尺度上下文信息進行了系統化處理。該體系結構基於這樣一個假設,即擴展的解決方案支持在不損失分辨率或覆蓋範圍的狀況下對該感知區域的指數擴展。結果代表,本文提出的上下文模塊提升了語義分割系統的準確性。此外,咱們還研究了圖像分類網絡對稠密預測的適應性,並代表簡化適應網絡能夠提升預測精度。架構
Unit 1:計算機視覺中的語義分割函數
語義分割是計算機視覺中十分重要的領域,它是指像素級地識別圖像,即標註出圖像中每一個像素所屬的對象類別。下圖爲語義分割的一個實例,其目標是預測出圖像中每個像素的類標籤。分割的目標通常是將一張RGB圖像(height*width*3)或是灰度圖(height*width*1)做爲輸入,輸出的是分割圖,其中每個像素包含了其類別的標籤(height*width*1). 爲了清晰起見,使用了低分辨率的預測圖,但實際上分割圖的分辨率應與原始輸入的分辨率相匹配。(https://blog.csdn.net/Biyoner/article/details/82591370)測試
Unit 2:DILATED CONVOLUTIONS ---空洞卷積.net
普通卷積 i.e. dilation=1設計
空洞卷積 i.e. dilation=2htm
空洞卷積核中的點距離由 1 增長到了 dilation 值,即中間 dilation-1 的地方都是空着的,這個空着的地方,一方面保持了卷積的參數的單次卷積運算量的不變,同時擴大了卷積的視野。
a圖中每一個紅點表示3X3的視野範圍 b中每一個紅點表示7X7的視野範圍(由於中間空出了2個格子) c中每一個紅點視野範圍爲15X15
視野範圍的計算公式爲:M =(K+1)*N - 1 【K是卷積核維度 N是dilated數】
Unit 3:多級上下文聚合
上下文聚合模塊由於輸入輸出都是C特徵圖的形式,因此能夠插入現有的稠密預測結構中。
上下文模塊的基本構成是:每一個層都有C個通道; 每一個層的表現是相同的; 每一個層均可以用於直接得到一個稠密類預測;
儘管沒有標準化特徵圖也沒有定義LOSS 可是該模塊能夠經過傳遞特徵圖以揭示上下文信息以提升預測的準確性。
基本上下文模塊由7層3X3卷積構成,只是膨脹因子不一樣,分別取值爲1,1,2,4,8,16,1。
每層的3X3XC卷積都有前兩個維度的膨脹,全部後面都跟這一個逐點截取的 max(·,0)函數。最後一層爲1X1XC 由於處理特徵圖爲64X64 因此到第六層就不膨脹了,要不視野就超了。
實驗的第一次嘗試失敗了,標準化的初始化過程不能達到良好的訓練效果。
一般卷積神經網絡人們都是用隨機分佈初始化,可是在本實驗中咱們發現一種清空語義的選擇初始化方案更好用:
其中a,b分別爲特徵圖和輸出圖的索引
網絡結構
大型網絡的初始化函數
測試結果:https://arxiv.org/abs/1511.07122
TensorFlow模型:https://github.com/ndrplz/dilation-tensorflow
論文提供模型:https://github.com/fyu/dilation
(本文的工做是朝着不受圖像預分類約束的密集預測專用架構邁出的一步。隨着新的數據源的出現,將來的體系結構可能會變成端到端的密集訓練,再也不須要預先訓練動物分類數據集,這能夠實現架構的簡化和統一。具體地說,端到端的密集訓練能夠實現徹底密集的體系結構,相似於呈現的上下文網絡,經過輸出操做徹底分辨率,接受原始圖像做爲輸入,並以徹底分辨率生成密集的標籤分配做爲輸出。----目標:端到端的密集標籤分配)
我的總結:本文用了一個使用空洞卷積的上下文聚合模塊提升語義分割的精度。擴展卷積算子特別適合於密集預測,由於它可以在不丟失分辨率或覆蓋率的狀況下擴展接收場。本文還代表,現有的卷積網絡用於語義分割的精度能夠經過去除圖像冗餘來增長。