卷積網絡在特徵分層領域是很是強大的視覺模型。咱們證實了通過端到端、像素到像素訓練的卷積網絡超過語義分割中最早進的技術。咱們的核心觀點是創建「全卷積」網絡,輸入任意尺寸,通過有效的推理和學習產生相應尺寸的輸出。咱們定義並指定全卷積網絡的空間,解釋它們在空間範圍內dense prediction任務(預測每一個像素所屬的類別)和獲取與先驗模型聯繫的應用。咱們改編當前的分類網絡(AlexNet [22] ,the VGG net [34] , and GoogLeNet [35] )到徹底卷積網絡和經過微調 [5] 傳遞它們的學習表現到分割任務中。而後咱們定義了一個跳躍式的架構,結合來自深、粗層的語義信息和來自淺、細層的表徵信息來產生準確和精細的分割。咱們的徹底卷積網絡成爲了在PASCAL VOC最出色的分割方式(在2012年相對62.2%的平均IU提升了20%),NYUDv2,和SIFT Flow,對一個典型圖像推理只須要花費不到0.2秒的時間。 git
卷積網絡在識別領域前進勢頭很猛。卷積網不只全圖式的分類上有所提升 [22,34,35] ,也在結構化輸出的局部任務上取得了進步。包括在目標檢測邊界框 [32,12,19] 、部分和關鍵點預測 [42,26] 和局部通訊 [26,10] 的進步。算法
在從粗糙到精細推理的進展中下一步天然是對每個像素進行預測。早前的方法已經將卷積網絡用於語義分割 [30,3,9,31,17,15,11] ,其中每一個像素被標記爲其封閉對象或區域的類別,可是有個缺點就是這項工做addresses。數組
咱們證實了通過 端到端 、像素到像素訓練的的卷積網絡超過語義分割中沒有further machinery的最早進的技術。咱們認爲,這是第一次訓練端到端(1)的FCN在像素級別的預測,並且來自監督式預處理(2)。全卷積在現有的網絡基礎上從任意尺寸的輸入預測密集輸出。學習和推理能在全圖經過密集的前饋計算和反向傳播一次執行。網內上採樣層能在像素級別預測和經過下采樣池化學習。網絡
這種方法很是有效,不管是漸進地仍是徹底地,消除了在其餘方法中的併發問題。Patchwise訓練是常見的 [30, 3, 9, 31, 11] ,可是缺乏了全卷積訓練的有效性。咱們的方法不是利用預處理或者後期處理解決併發問題,包括超像素 [9,17] ,proposals [17,15] ,或者對經過隨機域過後細化或者局部分類 [9,17] 。咱們的模型經過從新解釋分類網到全卷積網絡和微調它們的學習表現將最近在分類上的成功 [22,34,35] 移植到dense prediction。與此相反,先前的工做應用的是小規模、沒有超像素預處理的卷積網。架構
語義分割面臨在語義和位置的內在張力問題:全局信息解決的「是什麼」,而局部信息解決的是「在哪裏」。深層特徵經過非線性的局部到全局金字塔編碼了位置和語義信息。咱們在4.2節(見圖3)定義了一種利用集合了深、粗層的語義信息和淺、細層的表徵信息的特徵譜的跨層架構。併發
在下一節,咱們回顧深層分類網、FCNs和最近一些利用卷積網解決語義分割的相關工做。接下來的章節將解釋FCN設計和密集預測權衡,介紹咱們的網內上採樣和多層結合架構,描述咱們的實驗框架。最後,咱們展現了最早進技術在PASCAL VOC 2011-2, NYUDv2, 和SIFT Flow上的實驗結果。 app
咱們的方法是基於最近深層網絡在圖像分類上的成功 [22,34,35] 和轉移學習。轉移第一次被證實在各類視覺識別任務 [5,41] ,而後是檢測,不只在實例還有融合proposal-classification模型的語義分割 [12,17,15] 。咱們如今從新構建和微調直接的、dense prediction語義分割的分類網。在這個框架裏咱們繪製FCNs的空間並將過去的或是最近的先驗模型置於其中。框架
全卷積網絡據咱們所知,第一次將卷積網擴展到任意尺寸的輸入的是Matan等人 [28] ,它將經典的LeNet [23] 擴展到識別字符串的位數。由於他們的網絡結構限制在一維的輸入串,Matan等人利用譯碼器譯碼得到輸出。Wolf和Platt [40] 將卷積網輸出擴展到來檢測郵政地址塊的四角得分的二維圖。這些先前工做作的是推理和用於檢測的全卷積式學習。Ning等人 [30] 定義了一種卷積網絡用於秀麗線蟲組織的粗糙的、多分類分割,基於全卷積推理。electron
全卷積計算也被用在如今的一些多層次的網絡結構中。Sermanet等人的滑動窗口檢測 [32] ,Pinherio 和Collobert的語義分割 [31] ,Eigen等人的圖像修復 [6] 都作了全卷積式推理。全卷積訓練不多,可是被Tompson等人 [38] 用來學習一種端到端的局部檢測和姿態估計的空間模型很是有效,儘管他們沒有解釋或者分析這種方法。ide
此外,He等人 [19] 在特徵提取時丟棄了分類網的無卷積部分。他們結合proposals和空間金字塔池來產生一個局部的、固定長度的特徵用於分類。儘管快速且有效,可是這種混合模型不能進行端到端的學習。
基於卷積網的dense prediction近期的一些工做已經將卷積網應用於dense prediction問題,包括Ning等人的語義分割 [30] ,Farabet等人 [9] 以及Pinheiro和Collobert [31] ;Ciresan等人的電子顯微鏡邊界預測 [3] 以及Ganin和Lempitsky [11] 的經過混合卷積網和最鄰近模型的處理天然場景圖像;還有Eigen等人 [6,7] 的圖像修復和深度估計。這些方法的相同點包括以下:
然而咱們的方法確實沒有這種機制。可是咱們研究了patchwise訓練 (3.4節)和從FCNs的角度出發的「shift-and-stitch」dense輸出(3.2節)。咱們也討論了網內上採樣(3.3節),其中Eigen等人[7]的全鏈接預測是一個特例。
和這些現有的方法不一樣的是,咱們改編和擴展了深度分類架構,使用圖像分類做爲監督預處理,和從所有圖像的輸入和ground truths(用於有監督訓練的訓練集的分類準確性)經過全卷積微調進行簡單且高效的學習。
Hariharan等人 [17] 和Gupta等人 [15] 也改編深度分類網到語義分割,可是也在混合proposal-classifier模型中這麼作了。這些方法經過採樣邊界框和region proposal進行微調了R-CNN系統 [12] ,用於檢測、語義分割和實例分割。這兩種辦法都不能進行端到端的學習。他們分別在PASCAL VOC和NYUDv2實現了最好的分割效果,因此在第5節中咱們直接將咱們的獨立的、端到端的FCN和他們的語義分割結果進行比較。
咱們經過跨層和融合特徵來定義一種非線性的局部到總體的表述用來協調端到端。在現今的工做中Hariharan等人 [18] 也在語義分割的混合模型中使用了多層。
卷積網的每層數據是一個h*w*d的三維數組,其中h和w是空間維度,d是特徵或通道維數。第一層是像素尺寸爲h*w、顏色通道數爲d的圖像。高層中的locations和圖像中它們連通的locations相對應,被稱爲接收域。
卷積網是以平移不變形做爲基礎的。其基本組成部分(卷積,池化和激勵函數)做用在局部輸入域,只依賴相對空間座標。在特定層記X_ij爲在座標(i,j)的數據向量,在following layer有Y_ij,Y_ij的計算公式以下:
其中k爲卷積核尺寸,s是步長或下采樣因素,f_ks決定了層的類型:一個卷積的矩陣乘或者是平均池化,用於最大池的最大空間值或者是一個激勵函數的一個非線性elementwise,亦或是層的其餘種類等等。當卷積核尺寸和步長聽從轉換規則,這個函數形式被表述爲以下形式:
當一個普通深度的網絡計算一個普通的非線性函數,一個網絡只有這種形式的層計算非線性濾波,咱們稱之爲深度濾波或全卷積網絡。FCN理應能夠計算任意尺寸的輸入併產生相應(或許重採樣)空間維度的輸出。一個實值損失函數有FCN定義了task。若是損失函數是一個最後一層的空間維度總和,
,它的梯度將是它的每層空間組成梯度總和。因此在所有圖像上的基於l的隨機梯度降低計算將和基於l'的梯度降低結果同樣,將最後一層的全部接收域做爲minibatch(分批處理)。在這些接收域重疊很大的狀況下,前反饋計算和反向傳播計算整圖的疊層都比獨立的patch-by-patch有效的多。
咱們接下來將解釋怎麼將分類網絡轉換到能產生粗輸出圖的全卷積網絡。對於像素級預測,咱們須要鏈接這些粗略的輸出結果到像素。3.2節描述了一種技巧,快速掃描[13]所以被引入。咱們經過將它解釋爲一個等價網絡修正而得到了關於這個技巧的一些領悟。做爲一個高效的替換,咱們引入了去卷積層用於上採樣見3.3節。在3.4節,咱們考慮經過patchwise取樣訓練,便在4.3節證實咱們的全圖式訓練更快且一樣有效。
典型的識別網絡,包括LeNet [23] , AlexNet [22] , 和一些後繼者 [34, 35] ,表面上採用的是固定尺寸的輸入產生了非空間的輸出。這些網絡的全鏈接層有肯定的位數並丟棄空間座標。然而,這些全鏈接層也被看作是覆蓋所有輸入域的核卷積。須要將它們加入到能夠採用任何尺寸輸入並輸出分類圖的全卷積網絡中。這種轉換如圖2所示。
此外,看成爲結果的圖在特殊的輸入patches上等同於原始網絡的估計,計算是高度攤銷的在那些patches的重疊域上。例如,當AlexNet花費了1.2ms(在標準的GPU上)推算一個227*227圖像的分類得分,全卷積網絡花費22ms從一張500*500的圖像上產生一個10*10的輸出網格,比樸素法快了5倍多。
這些卷積化模式的空間輸出圖能夠做爲一個很天然的選擇對於dense問題,好比語義分割。每一個輸出單元ground truth可用,正推法和逆推法都是直截了當的,都利用了卷積的固有的計算效率(和可極大優化性)。對於AlexNet例子相應的逆推法的時間爲單張圖像時間2.4ms,全卷積的10*10輸出圖爲37ms,結果是相對於順推法速度加快了。
當咱們將分類網絡從新解釋爲任意輸出尺寸的全卷積域輸出圖,輸出維數也經過下采樣顯著的減小了。分類網絡下采樣使filter保持小規模同時計算要求合理。這使全卷積式網絡的輸出結果變得粗糙,經過輸入尺寸由於一個和輸出單元的接收域的像素步長等同的因素來下降它。
dense prediction能從粗糙輸出中經過從輸入的平移版本中將輸出拼接起來得到。若是輸出是由於一個因子f下降採樣,平移輸入的x像素到左邊,y像素到下面,一旦對於每一個(x,y)知足0<=x,y<=f.處理f^2個輸入,並將輸出交錯以便預測和它們接收域的中心像素一致。
儘管單純地執行這種轉換增長了f^2的這個因素的代價,有一個很是有名的技巧用來高效的產生徹底相同的結果 [13,32] ,這個在小波領域被稱爲多孔算法 [27] 。考慮一個層(卷積或者池化)中的輸入步長s,和後面的濾波權重爲f_ij的卷積層(忽略不相關的特徵維數)。設置更低層的輸入步長到l上採樣它的輸出影響因子爲s。然而,將原始的濾波和上採樣的輸出卷積並無產生和shift-and-stitch相同的結果,由於原始的濾波只看獲得(已經上採樣)輸入的簡化的部分。爲了重現這種技巧,經過擴大來稀疏濾波,以下:
若是s能除以i和j,除非i和j都是0。重現該技巧的全網輸出須要重複一層一層放大這個filter知道全部的下采樣被移除。(在練習中,處理上採樣輸入的下采樣版本可能會更高效。)
在網內減小二次採樣是一種折衷的作法:filter能看到更細節的信息,可是接受域更小並且須要花費很長時間計算。Shift-and -stitch技巧是另一種折衷作法:輸出更加密集且沒有減少filter的接受域範圍,可是相對於原始的設計filter不能感覺更精細的信息。
儘管咱們已經利用這個技巧作了初步的實驗,可是咱們沒有在咱們的模型中使用它。正如在下一節中描述的,咱們發現從上採樣中學習更有效和高效,特別是接下來要描述的結合了跨層融合。
另外一種鏈接粗糙輸出到dense像素的方法就是插值法。好比,簡單的雙線性插值計算每一個輸出y_ij來自只依賴輸入和輸出單元的相對位置的線性圖最近的四個輸入。
從某種意義上,伴隨因子f的上採樣是對步長爲1/f的分數式輸入的卷積操做。只要f是整數,一種天然的方法進行上採樣就是向後卷積(有時稱爲去卷積)伴隨輸出步長爲f。這樣的操做實現是不重要的,由於它只是簡單的調換了卷積的順推法和逆推法。因此上採樣在網內經過計算像素級別的損失的反向傳播用於端到端的學習。
須要注意的是去卷積濾波在這種層面上不須要被固定不變(好比雙線性上採樣)可是能夠被學習。一堆反褶積層和激勵函數甚至能學習一種非線性上採樣。在咱們的實驗中,咱們發如今網內的上採樣對於學習dense prediction是快速且有效的。咱們最好的分割架構利用了這些層來學習上採樣用以微調預測,見4.2節。
在隨機優化中,梯度計算是由訓練分佈支配的。patchwise 訓練和全卷積訓練能被用來產生任意分佈,儘管他們相對的計算效率依賴於重疊域和minibatch的大小。在每個由全部的單元接受域組成的批次在圖像的損失之下(或圖像的集合)整張圖像的全卷積訓練等同於patchwise訓練。當這種方式比patches的均勻取樣更加高效的同時,它減小了可能的批次數量。然而在一張圖片中隨機選擇patches可能更容易被從新找到。限制基於它的空間位置隨機取樣子集產生的損失(或者能夠說應用輸入和輸出之間的DropConnect mask [39] )排除來自梯度計算的patches。
若是保存下來的patches依然有重要的重疊,全卷積計算依然將加速訓練。若是梯度在多重逆推法中被積累,batches能包含幾張圖的patches。patcheswise訓練中的採樣能糾正分類失調 [30,9,3] 和減輕密集空間相關性的影響[31,17]。在全卷積訓練中,分類平衡也能經過給損失賦權重實現,對損失採樣能被用來標識空間相關。
咱們研究了4.3節中的伴有采樣的訓練,沒有發現對於dense prediction它有更快或是更好的收斂效果。全圖式訓練是有效且高效的。
咱們將ILSVRC分類應用到FCNs增大它們用於dense prediction結合網內上採樣和像素級損失。咱們經過微調爲分割進行訓練。接下來咱們增長了跨層來融合粗的、語義的和局部的表徵信息。這種跨層式架構能學習端到端來改善輸出的語義和空間預測。
爲此,咱們訓練和在PASCAL VOC 2011分割挑戰賽[8]中驗證。咱們訓練逐像素的多項式邏輯損失和驗證標準度量的在集合中平均像素交集還有基於全部分類上的平均接收,包括背景。這個訓練忽略了那些在groud truth中被遮蓋的像素(模糊不清或者很難辨認)。
注:不是每一個可能的patch被包含在這種方法中,由於最後一層單位的的接收域依賴一個固定的、步長大的網格。然而,對該圖像進行向左或向下隨機平移接近該步長個單位,從全部可能的patches 中隨機選取或許能夠修復這個問題。
【原文圖】
咱們在第3節中以卷積證實分類架構的。咱們認爲拿下了ILSVRC12的AlexNet3架構 [22] 和VGG nets [34] 、GoogLeNet4 [35] 同樣在ILSVRC14上表現的格外好。咱們選擇VGG 16層的網絡5,發現它和19層的網絡在這個任務(分類)上至關。對於GoogLeNet,咱們僅僅使用的最後的損失層,經過丟棄了最後的平均池化層提升了表現能力。咱們經過丟棄最後的分類切去每層網絡頭,而後將全鏈接層轉化成卷積層。咱們附加了一個1*1的、通道維數爲21的卷積來預測每一個PASCAL分類(包括背景)的得分在每一個粗糙的輸出位置,後面緊跟一個去卷積層用來雙線性上採樣粗糙輸出到像素密集輸出如3.3.節中描述。表1將初步驗證結果和每層的基礎特性比較。咱們發現最好的結果在以一個固定的學習速率獲得(最少175個epochs)。
從分類到分割的微調對每層網絡有一個合理的預測。甚至最壞的模型也能達到大約75%的良好表現。內設分割的VGG網絡(FCN-VGG16)已經在val上平均IU 達到了56.0取得了最好的成績,相比於52.6 [17] 。在額外數據上的訓練將FCN-VGG16提升到59.4,將FCN-AlexNet提升到48.0。儘管相同的分類準確率,咱們的用GoogLeNet並不能和VGG16的分割結果相比較。
咱們定義了一個新的全卷積網用於結合了特徵層級的分割並提升了輸出的空間精度,見圖3。當全卷積分類能被微調用於分割如4.1節所示,甚至在標準度量上得分更高,它們的輸出不是很粗糙(見圖4)。最後預測層的32像素步長限制了上採樣輸入的細節的尺寸。
咱們提出增長結合了最後預測層和有更細小步長的更低層的跨層信息[1],將一個線劃拓撲結構轉變成DAG(有向無環圖),而且邊界將從更底層向前跳躍到更高(圖3)。由於它們只能獲取更少的像素點,更精細的尺寸預測應該須要更少的層,因此從更淺的網中將它們輸出是有道理的。結合了精細層和粗糙層讓模型能作出聽從全局結構的局部預測。與Koenderick 和an Doorn [21]的jet相似,咱們把這種非線性特徵層稱之爲deep jet。
咱們首先將輸出步長分爲一半,經過一個16像素步長層預測。咱們增長了一個1*1的卷積層在pool4的頂部來產生附加的類別預測。咱們將輸出和預測融合在conv7(fc7的卷積化)的頂部以步長32計算,經過增長一個2×的上採樣層和預測求和(見圖3)。咱們初始化這個2×上採樣到雙線性插值,可是容許參數能被學習,如3.3節所描述、最後,步長爲16的預測被上採樣回圖像,咱們把這種網結構稱爲FCN-16s。FCN-16s用來學習端到端,能被最後的參數初始化。這種新的、在pool4上生效的參數是初始化爲0 的,因此這種網結構是以未變性的預測開始的。這種學習速率是以100倍的降低的。
學習這種跨層網絡能在3.0平均IU的有效集合上提升到62.4。圖4展現了在精細結構輸出上的提升。咱們將這種融合學習和僅僅從pool4層上學習進行比較,結果表現糟糕,並且僅僅下降了學習速率而沒有增長跨層,致使了沒有提升輸出質量的沒有顯著提升表現。
咱們繼續融合pool3和一個融合了pool4和conv7的2×上採樣預測,創建了FCN-8s的網絡結構。在平均IU上咱們得到了一個較小的附加提高到62.7,而後發現了一個在平滑度和輸出細節上的輕微提升。這時咱們的融合提升已經獲得了一個衰減回饋,既在強調了大規模正確的IU度量的層面上,也在提高顯著度上獲得反映,如圖4所示,因此即便是更低層咱們也不須要繼續融合。
其餘方式精煉化減小池層的步長是最直接的一種獲得精細預測的方法。然而這麼作對咱們的基於VGG16的網絡帶來問題。設置pool5的步長到1,要求咱們的卷積fc6核大小爲14*14來維持它的接收域大小。另外它們的計算代價,經過如此大的濾波器學習很是困難。咱們嘗試用更小的濾波器重建pool5之上的層,可是並無獲得有可比性的結果;一個可能的解釋是ILSVRC在更上層的初始化時很是重要的。
另外一種得到精細預測的方法就是利用3.2節中描述的shift-and-stitch技巧。在有限的實驗中,咱們發現從這種方法的提高速率比融合層的方法花費的代價更高。
優化咱們利用momentum訓練了GSD。咱們利用了一個minibatch大小的20張圖片,而後固定學習速率爲10-3,10-4,和5-5用於FCN-AlexNet, FCN-VGG16,和FCN-GoogLeNet,經過各自的線性搜索選擇。咱們利用了0.9的momentum,權值衰減在5-4或是2-4,並且對於誤差的學習速率加倍了,儘管咱們發現訓練對單獨的學習速率敏感。咱們零初始化類的得分層,隨機初始化既不能產生更好的表現也沒有更快的收斂。Dropout被包含在用於原始分類的網絡中。
微調咱們經過反向傳播微調整個網絡的全部層。通過表2的比較,微調單獨的輸出分類表現只有全微調的70%。考慮到學習基礎分類網絡所需的時間,從scratch中訓練不是可行的。(注意VGG網絡的訓練是階段性的,當咱們從全16層初始化後)。對於粗糙的FCN-32s,在單GPU上,微調要花費三天的時間,並且大約每隔一天就要更新到FCN-16s和FCN-8s版本。
更多的訓練數據PASCAL VOC 2011分割訓練設置1112張圖片的標籤。Hariharan等人 [16] 爲一個更大的8498的PASCAL訓練圖片集合收集標籤,被用於訓練先前的先進系統,SDS [17] 。訓練數據將FCV-VGG16得分提升了3.4個百分點到59.4。
patch取樣正如3.4節中解釋的,咱們的全圖有效地訓練每張圖片batches到常規的、大的、重疊的patches網格。相反的,先前工做隨機樣本patches在一整個數據集 [30,3,9,31,11] ,可能致使更高的方差batches,可能加速收斂 [24] 。咱們經過空間採樣以前方式描述的損失研究這種折中,以1-p的機率作出獨立選擇來忽略每一個最後層單元。爲了不改變有效的批次尺寸,咱們同時以因子1/p增長每批次圖像的數量。注意的是由於卷積的效率,在足夠大的p值下,這種拒絕採樣的形式依舊比patchwose訓練要快(好比,根據3.1節的數量,最起碼p>0.2)圖5展現了這種收斂的採樣的效果。咱們發現採樣在收斂速率上沒有很顯著的效果相對於全圖式訓練,可是因爲每一個每一個批次都須要大量的圖像,很明顯的須要花費更多的時間。
分類平衡全卷積訓練能經過按權重或對損失採樣平衡類別。儘管咱們的標籤有輕微的不平衡(大約3/4是背景),咱們發現類別平衡不是必要的。dense prediction分數是經過網內的去卷積層上採樣到輸出維度。最後層去卷積濾波被固定爲雙線性插值,當中間採樣層是被初始化爲雙線性上採樣,而後學習。擴大咱們嘗試經過隨機反射擴大訓練數據,"jettering"圖像經過將它們在每一個方向上轉化成32像素(最粗糙預測的尺寸)。這並無明顯的改善。實現全部的模型都是在單NVIDIA Tesla K40c上用Caffe[20]訓練和學習。
咱們訓練FCN在語義分割和場景解析,研究了PASCAL VOC, NYUDv2和 SIFT Flow。儘管這些任務在之前主要是用在物體和區域上,咱們都一概將它們視爲像素預測。咱們在這些數據集中都進行測試用來評估咱們的FCN跨層式架構,而後對於NYUDv2將它擴展成一個多模型的輸出,對於SIFT Flow則擴展成多任務的語義和集合標籤。
度量 咱們從常見的語義分割和場景解析評估中提出四種度量,它們在像素準確率和在聯合的區域交叉上是不一樣的。令n_ij爲類別i的被預測爲類別j的像素數量,有n_ij個不一樣的類別,令
爲類別i的像素總的數量。咱們將計算:
PASCAL VOC 表3給出了咱們的FCN-8s的在PASCAL VOC2011和2012測試集上的表現,而後將它和以前的先進方法SDS[17]和著名的R-CNN[12]進行比較。咱們在平均IU上取得了最好的結果相對提高了20%。推理時間被下降了114×(只有卷積網,沒有proposals和微調)或者286×(所有都有)。
NVUDv2 [33]是一種經過利用Microsoft Kinect收集到的RGB-D數據集,含有已經被合併進Gupt等人[14]的40類別的語義分割任務的pixelwise標籤。咱們報告結果基於標準分離的795張圖片和654張測試圖片。(注意:全部的模型選擇將展現在PASCAL 2011 val上)。表4給出了咱們模型在一些變化上的表現。首先咱們在RGB圖片上訓練咱們的未經修改的粗糙模型(FCN-32s)。爲了添加深度信息,咱們訓練模型升級到能採用4通道RGB-Ds的輸入(早期融合)。這提供了一點便利,也許是因爲模型一直要傳播有意義的梯度的困難。緊隨Gupta等人[15]的成功,咱們嘗試3維的HHA編碼深度,只在這個信息上(即深度)訓練網絡,和RGB與HHA的「後期融合」同樣來自這兩個網絡中的預測將在最後一層進行總結,結果的雙流網絡將進行端到端的學習。最後咱們將這種後期融合網絡升級到16步長的版本。
SIFT Flow是一個帶有33語義範疇(「橋」、「山」、「太陽」)的像素標籤的2688張圖片的數據集和3個幾何分類(「水平」、「垂直」和「sky")同樣。一個FCN能天然學習共同表明權,即能同時預測標籤的兩種類別。咱們學習FCN-16s的一種雙向版本結合語義和幾何預測層和損失。這種學習模型在這兩種任務上做爲獨立的訓練模型表現很好,同時它的學習和推理基本上和每一個獨立的模型同樣快。表5的結果顯示,計算在標準分離的2488張訓練圖片和200張測試圖片上計算,在這兩個任務上都表現的極好。
全卷積網絡是模型很是重要的部分,是現代化分類網絡中一個特殊的例子。認識到這個,將這些分類網絡擴展到分割並經過多分辨率的層結合顯著提升先進的技術,同時簡化和加速學習和推理。
鳴謝 這項工做有如下部分支持DARPA's MSEE和SMISC項目,NSF awards IIS-1427425, IIS-1212798, IIS-1116411, 還有NSF GRFP,Toyota, 還有 Berkeley Vision和Learning Center。咱們很是感謝NVIDIA捐贈的GPU。咱們感謝Bharath Hariharan 和Saurabh Gupta的建議和數據集工具;咱們感謝Sergio Guadarrama 重構了Caffe裏的GoogLeNet;咱們感謝Jitendra Malik的有幫助性評論;感謝Wei Liu指出了咱們SIFT Flow平均IU計算上的一個問題和頻率權重平均IU公式的錯誤。
在這篇論文中,咱們已經在平均IU分割度量上取到了很好的效果,即便是粗糙的語義預測。爲了更好的理解這種度量還有關於這種方法的限制,咱們在計算不一樣的規模上預測的表現的大體上界。咱們經過下采樣ground truth圖像,而後再次對它們進行上採樣,來模擬能夠得到最好的結果,其伴隨着特定的下采樣因子。下表給出了不一樣下采樣因子在PASCAL2011 val的一個子集上的平均IU。pixel-perfect預測很顯然在取得最最好效果上不是必須的,並且,相反的,平均IU不是一個好的精細準確度的測量標準。
咱們將咱們的FCN用於語義分割進行了更進一步的評估。PASCAL-Context [29] 提供了PASCAL VOC 2011的所有場景註釋。有超過400中不一樣的類別,咱們遵循了 [29] 定義的被引用最頻繁的59種類任務。咱們分別訓練和評估了訓練集和val集。在表6中,咱們將聯合對象和Convolutional Feature Masking [4] 的stuff variation進行比較,後者是以前這項任務中最好的方法。FCN-8s在平均IU上得分爲37.8,相對提升了20%
論文的arXiv版本保持着最新的修正和其餘的相關材料,接下來給出一份簡短的變動歷史。v2 添加了附錄A和附錄B。修正了PASCAL的有效數量(以前一些val圖像被包含在訓練中),SIFT Flow平均IU(用的不是很規範的度量),還有頻率權重平均IU公式的一個錯誤。添加了模型和更新時間數字來反映改進的實現的連接(公開可用的)。
[1] C. M. Bishop. Pattern recognition and machine learning,page 229. Springer-Verlag New York, 2006. 6
[2] J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Semantic segmentation with second-order pooling. In ECCV,2012. 9
[3] D. C. Ciresan, A. Giusti, L. M. Gambardella, and J. Schmidhuber.Deep neural networks segment neuronal membranes in electron microscopy images. In NIPS, pages 2852–2860,2012. 1, 2, 4, 7
[4] J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. arXiv preprint arXiv:1412.1283, 2014. 9
[5] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang,E. Tzeng, and T. Darrell. DeCAF: A deep convolutional activation feature for generic visual recognition. In ICML, 2014.1, 2
[6] D. Eigen, D. Krishnan, and R. Fergus. Restoring an image taken through a window covered with dirt or rain. In Computer Vision (ICCV), 2013 IEEE International Conference on, pages 633–640. IEEE, 2013. 2
[7] D. Eigen, C. Puhrsch, and R. Fergus. Depth map prediction from a single image using a multi-scale deep network. arXiv preprint arXiv:1406.2283, 2014. 2
[8] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes Challenge 2011 (VOC2011) Results.
[9] C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Learning hierarchical features for scene labeling. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013. 1, 2, 4,7, 8
[10] P. Fischer, A. Dosovitskiy, and T. Brox. Descriptor matching with convolutional neural networks: a comparison to SIFT.CoRR, abs/1405.5769, 2014. 1
[11] Y. Ganin and V. Lempitsky. N4-fields: Neural network nearest neighbor fields for image transforms. In ACCV, 2014. 1,2, 7
[12] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition,2014. 1, 2, 7
[13] A. Giusti, D. C. Cires¸an, J. Masci, L. M. Gambardella, and J. Schmidhuber. Fast image scanning with deep max-pooling convolutional neural networks. In ICIP, 2013. 3, 4
[14] S. Gupta, P. Arbelaez, and J. Malik. Perceptual organization and recognition of indoor scenes from RGB-D images. In CVPR, 2013. 8
[15] S. Gupta, R. Girshick, P. Arbelaez, and J. Malik. Learning rich features from RGB-D images for object detection and segmentation. In ECCV. Springer, 2014. 1, 2, 8
[16] B. Hariharan, P. Arbelaez, L. Bourdev, S. Maji, and J. Malik.Semantic contours from inverse detectors. In International Conference on Computer Vision (ICCV), 2011. 7
[17] B. Hariharan, P. Arbel´aez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In European Conference on Computer Vision (ECCV), 2014. 1, 2, 4, 5, 7, 8
[18] B. Hariharan, P. Arbel´aez, R. Girshick, and J. Malik. Hypercolumns for object segmentation and fine-grained localization.In Computer Vision and Pattern Recognition, 2015.2
[19] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014. 1, 2
[20] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick,S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv preprint
arXiv:1408.5093, 2014. 7
[21] J. J. Koenderink and A. J. van Doorn. Representation of local geometry in the visual system. Biological cybernetics,55(6):367–375, 1987. 6
[22] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 1, 2, 3, 5
[23] Y. LeCun, B. Boser, J. Denker, D. Henderson, R. E. Howard,W. Hubbard, and L. D. Jackel. Backpropagation applied to hand-written zip code recognition. In Neural Computation,1989. 2, 3
[24] Y. A. LeCun, L. Bottou, G. B. Orr, and K.-R. M¨uller. Efficient backprop. In Neural networks: Tricks of the trade,pages 9–48. Springer, 1998. 7
[25] C. Liu, J. Yuen, and A. Torralba. Sift flow: Dense correspondence across scenes and its applications. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 33(5):978–994, 2011.8
[26] J. Long, N. Zhang, and T. Darrell. Do convnets learn correspondence?In NIPS, 2014. 1
[27] S. Mallat. A wavelet tour of signal processing. Academic press, 2nd edition, 1999. 4
[28] O. Matan, C. J. Burges, Y. LeCun, and J. S. Denker. Multidigit recognition using a space displacement neural network.In NIPS, pages 488–495. Citeseer, 1991. 2
[29] R. Mottaghi, X. Chen, X. Liu, N.-G. Cho, S.-W. Lee, S. Fidler,R. Urtasun, and A. Yuille. The role of context for object detection and semantic segmentation in the wild. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 891–898. IEEE, 2014. 9
[30] F. Ning, D. Delhomme, Y. LeCun, F. Piano, L. Bottou, and P. E. Barbano. Toward automatic phenotyping of developing embryos from videos. Image Processing, IEEE Transactions on, 14(9):1360–1371, 2005. 1, 2, 4, 7
[31] P. H. Pinheiro and R. Collobert. Recurrent convolutional neural networks for scene labeling. In ICML, 2014. 1, 2,4, 7, 8
[32] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.1, 2, 4
[33] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus. Indoor segmentation and support inference from rgbd images. In ECCV, 2012. 8
[34] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. CoRR,abs/1409.1556, 2014. 1, 2, 3, 5
[35] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A.Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842,2014. 1, 2, 3, 5
[36] J. Tighe and S. Lazebnik. Superparsing: scalable nonparametric image parsing with superpixels. In ECCV, pages 352–365. Springer, 2010. 8
[37] J. Tighe and S. Lazebnik. Finding things: Image parsing with regions and per-exemplar detectors. In CVPR, 2013. 8
[38] J. Tompson, A. Jain, Y. LeCun, and C. Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. CoRR, abs/1406.2984, 2014. 2
[39] L. Wan, M. Zeiler, S. Zhang, Y. L. Cun, and R. Fergus. Regularization of neural networks using dropconnect. In Proceedings of the 30th International Conference on Machine Learning (ICML-13), pages 1058–1066, 2013. 4
[40] R. Wolf and J. C. Platt. Postal address block location using a convolutional locator network. Advances in Neural Information Processing Systems, pages 745–745, 1994. 2
[41] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In Computer Vision–ECCV 2014,pages 818–833. Springer, 2014. 2
[42] N. Zhang, J. Donahue, R. Girshick, and T. Darrell. Partbased r-cnns for fine-grained category detection. In Computer Vision–ECCV 2014, pages 834–849. Springer, 2014.1