1、相關工做網絡
一、FCN架構
FCN開創了語義分割任務的先河,高級語義信息在分割網絡中起着相當重要的做用。爲了提取高級信息,FCN使用多個池化層來增長輸出神經元的接受域大小。然而,增長池化層的數量會致使feature map的大小減少,這對將分割輸出上採樣回全分辨率形成了嚴重的挑戰。爲了解決較大的特徵圖分辨率和較大的接收域之間的矛盾,提出了一種新的空洞卷積算法。函數
二、空洞卷積(Atrous convolution )性能
與傳統的卷積算子相比,atrous卷積可以在不增長核參數數目的狀況下得到更大的接受域大小。由atrous卷積產生的feature map能夠與輸入的大小相同,可是每一個輸出神經元擁有更大的接受域,所以能夠編碼更高層次的語義。雖然atrous convolution解決了feature map分辨率與接受域大小之間的矛盾,atrouss - convolution輸出的 feature map中的全部神經元都具備相同的接受域大小,這意味着語義掩碼的生成過程只利用了單一尺度上的特徵。但是,多尺度信息將有助於解決模糊狀況,併產生更穩健的分類結果。編碼
三、ASPP加密
爲此,ASPP[2,3]提出將不一樣擴張率下的atrous convolution生成的feature map串聯起來,使得輸出feature map中的神經元包含多個接受域大小,對多尺度信息進行編碼,最終提升性能。spa
然而,隨着膨脹率的增長(如d > 24), atrous convolution變得愈來愈無效,逐漸失去了建模能力。所以,設計一個可以編碼多尺度信息,同時又能得到足夠大的接收域的網絡結構是很是重要的。設計
2、DenseASPPxml
DenseASPP由一個基礎網絡和一系列層疊的卷積層組成。提出的DenseASPP結合了並行和級聯使用空洞卷積層的優勢,在更大的範圍內產生了更多的尺度特徵。經過一系列的特徵鏈接,每一箇中間特徵圖上的神經元從多個尺度對語義信息進行編碼,不一樣的中間特徵圖從不一樣的尺度範圍對多尺度信息進行編碼。經過一系列的空洞卷積,較晚層次的神經元得到愈來愈大的感覺野,而不會出現ASPP的核退化問題。所以,DenseASPP最終的輸出特徵圖不只涵蓋了大範圍的語義信息,並且以很是密集的方式覆蓋了該範圍。
一、貢獻
1) DenseASPP可以生成覆蓋很是大範圍的特性(就接受域大小而言)。
2) DenseASPP生成的特徵可以很是密集地覆蓋上述尺度範圍。
二、工做模式
空洞卷積層以級聯方式組織,每一層的膨脹率逐層增長。膨脹率小的層在下部,膨脹率大的層在上部。將每一層的輸出與輸入的feature map和較低層的全部輸出鏈接起來,並將這些鏈接起來的feature map送入下一層。DenseASPP的最終輸出是由多空洞率、多尺度的卷積生成的特徵圖。提出的結構能夠同時組成一個更密集和更大的特徵金字塔,只須要幾個空洞卷積層。與原始的ASPP[3]相比,DenseASPP將全部空洞卷積層堆疊在一塊兒,並用緊密的鏈接將它們鏈接起來。這種變化主要給咱們帶來兩個好處:更密集的特徵金字塔和更大的接受域。
三、優勢
3.1密度特徵金字塔
「密度」一詞不只表示特徵金字塔的尺度多樣性更好,還表示卷積涉及的像素比ASPP中更多。
密集抽樣規模:DenseASPP是一個有效的架構,能夠對不一樣規模的輸入進行採樣。DenseASPP的一個關鍵設計是使用緊密的鏈接來實現不一樣膨脹率的不一樣層次的集成
對於擴張速率爲d、核大小爲K的空洞卷積層,其等效接受域大小爲:
R = (d - 1) × (K - 1) + K
以d = 3的3×3卷積層爲例,對應的接受域大小爲7。
將兩個卷積層疊加在一塊兒能夠獲得更大的接受域。假設咱們分別有兩個濾波尺寸爲K1和K2的卷積層,新的接受域爲:
K = K1 + K2 - 1
例如,內核大小爲7的卷積層與內核大小爲13的卷積層疊加,接收域大小爲19。
DenseASPP由包含擴張率爲3,6,12,18的擴張卷積,每組數字的表示擴張率的組合,長度表示等效的卷積核大小,k表示實際的接收野,以下所示:
密集的像素採樣:與ASPP相比,DenseASPP在特徵金字塔的計算中涉及到更多的像素。ASPP採用4個膨脹率分別爲六、十二、1八、24的卷積層構成特徵金字塔。與相同接收域的傳統卷積層相比,大擴張率的卷積層的像素採樣率很是稀疏。在DenseASPP中,膨脹率逐層增長,所以,上層的卷積能夠利用下層的特徵,使像素採樣更加密集。
3.2更大的接受域
DenseASPP帶來的另外一個好處是更大的接受域。Atrous convolutional layers在傳統的ASPP中是並行工做的,而四個分支在前饋過程當中是不共享任何信息的。與之相反,DenseASPP中的空洞卷積層經過跳過鏈接來共享信息。小擴展率和大擴展率的層之間是相互依賴的,其中前饋過程不只會構成一個更密集的特徵金字塔,並且會產生一個更大的過濾器來感知更大的上下文。
設Rmax爲特徵金字塔的最大接受域,函數RK,d爲核大小爲K、擴張率爲d的卷積層的接受域,則ASPP的最大接受域爲(6,12,18,
24)是:
Rmax = max [R3,6, R3,12, R3,18, R3,24]
= R3,24
= 51
而DenseASPP(六、十二、1八、24)的最大接受域是:
Rmax = R3,6 + R3,12 + R3,18 + R3,24 - 3
= 122
如此大的接受域能夠爲高分辨率圖像中的大對象提供全局信息。例如,Cityscapes[4]的分辨率爲2048×1024,而咱們的分割網絡最後的feature map爲256×128。DenseASPP(六、十二、1八、24)覆蓋了122特徵圖,DenseASPP(三、六、十二、1八、24)覆蓋了128的特徵圖。