SCNN車道線檢測--(SCNN)Spatial As Deep: Spatial CNN for Traffic Scene Understanding（論文解讀）

時間 2019-12-10

標籤 scnn 車道檢測 spatial deep cnn traffic scene understanding 論文解讀简体版

原文原文鏈接

Spatial As Deep: Spatial CNN for Traffic Scene Understanding

收錄：AAAI2018 (AAAI Conference on Artificial Intelligence)git

原文地址：SCNNgithub

論文提出了一個新穎網絡Spatial CNN，在圖片的行和列上作信息傳遞。能夠有效的識別強先驗結構的目標。論文提出了一個大型的車道檢測數據集，用於進一步推進自動駕駛發展。算法

代碼:網絡

官方-torch

Abstract

　　現今的CNN模型一般是由卷積塊堆疊構建，雖然CNN有強大的特徵提取能力，但現存CNN架構沒有足夠充分探索圖像行和列上的空間關係能力。這些關係對於學習強先驗形狀的對象很重要，尤爲是外觀(圖像像素)連貫性很弱。例如交通線，車道常常會被遮擋，或者壓根就沒在路上畫車道線。以下圖所示：架構

　　本文提出了Spatial CNN(CNN),它將傳統的卷積層接層(layer-by-layer)的鏈接形式的轉爲feature map中片連片卷積(slice-by-slice)的形式，使得圖中像素行和列之間可以傳遞信息。這特別適用於檢測長距離連續形狀的目標或大型目標，有着極強的空間關係可是外觀線索較差的目標，例如交通線，電線杆和牆。論文在車道檢測挑戰和CityScapes上評估了SCNN的表現，同時SCNN在TuSimple Benchmark lane Detection challenge得到了第一名，準確率爲96.53%。函數

Introduction

　　自動駕駛中最具挑戰的任務之一是交通場景理解，包括計算機視覺任務下的車道檢測和語義分割。車道檢測幫助指導車輛，語義分割提供更多關於周圍環境目標的細節位置。但在實際狀況下，由於有許多惡劣條件，這些任務可能很是具備挑戰性。對於交通場景理解的另外一個挑戰是，在許多狀況下須要在有強結構先驗知識下處理外形線索很少的目標，例如交通線，桿狀物等，這些具備長距離連續的形狀，經常有很大部分被遮擋。性能

　　得益於強大的學習表示能力，CNN將視覺理解推向了一個新的高度。可是這依然不能很好地處理外形線索很少的有強結構先驗的目標，而人類能夠推斷它們的位置並填充遮擋的部分。學習

　　爲了解決這個問題，論文提出了SCNN，將深度卷積神經網絡推廣到豐富空間層次。測試

　　傳統的CNN，任意層接收上層的數據做輸入，再做卷積並加激活傳給下一層，這個過程是順序執行的。與之相似的是，SCNN將feature map的行或列也當作layer，也使用卷積加非線性激活，從而實現空間上的深度神經網絡。這使得空間信息可以在同層的神經元上傳播，加強空間信息進而對於識別結構化對象特別有效。優化

相關工做：

　　對於車道檢測任務，大多數現有的算法都是依賴於低級手工特徵，這讓模型難以在惡劣條件下工做。2015年有工做嘗試使用深度學習方案用於車道檢測，但苦於沒有大的普遍的數據集(說這個的緣由是論文創建了一個大的數據集~)。對於語義分割，基於CNN的方案的已經成爲主流並取得了巨大的成功。

　　對於在深度神經網絡中使用空間信息：有工做使用RNN按每列和行傳遞信息，但每一個像素只能接收同一行或列的信息。也有工做使用LSTM變體探索語義分割的上下文信息，但計算消耗較大。也有工做嘗試結合CNN和圖模型(例如MRF或CRF)，經過大卷積核傳遞信息。

與上述方案相比，SCNN有以下幾個優點：

消息傳遞比傳統的MRF/CRF更有計算效率
消息傳遞使用的是殘差，這更易訓練
SCNN很靈活，適用於多種深度神經網絡

Spatial Convolutional Neural Network

Lane Detection Dataset

　　本文提出了一個關於交通車道檢測的大規模數據集。之前的車道檢測數據集(KITTI,CamVid)要不就是太簡單，要不就是數據過小。最近的(Caltech,TuSimple)數據集是在交通受限狀態下創建的，這樣的數據車流量少且路標較爲清晰。這些數據集沒有包括一些車道線模糊，條件惡劣的狀況，而這些狀況人類能夠推斷出來，且這具備很高的實用價值。

　　論文提出的數據集是由六輛車在北京不一樣時間錄製的，超過55個小時共收集了133,235 張圖片，這超過TuSimple 數據集20倍了。論文分紅88880張做爲訓練集, 9675做爲驗證集，34680作測試集。圖像的大小爲 $1640 \times 590$

　　數據集內包括城市、農村和高速公路等場景，北京做爲世界上最大和最擁擠的城市之一，對應的車道檢測數據提供了不少具備挑戰性的交通場景。論文將測試集分爲正常和8個具備挑戰性的類別，這對應上圖 (a)的9個示例狀況。圖(b)顯示的是挑戰性的場景站數據集的比例(共72.3%)。

　　對於每一張圖片，使用三條線註釋車道，如前面所述，許多狀況下車道是被遮擋的或看不見的。而這在實際狀況下是很重要的，車道檢測算法須要可以在這種狀況下工做。對此，標註工做根據上下文也作了標註，如圖(2)(4)所示。對於圖(1)的狀況咱們不對障礙的另外一邊作標註，將精力集中於最受關注的部分。

Spatial CNN

　　傳統的關於空間關係的建模方法是基於機率圖模型的，例如馬爾科夫隨機場(MRF)或條件隨機場(CRF)。最近有工做將機率圖與CNN相結合，如圖 3(a)所示：

CRF可化爲平均場，算法能夠用神經網絡來實現，具體來講，過程分爲：

標準化：CNN的輸出做爲一元勢函數，並經過Softmax操做標準化
信息傳遞：可經過大內核的逐通道卷積實現(對於DenseCRF,內核大小將覆蓋整張圖片，內核權重取決於圖片)
兼容性轉換：使用 $1 \times 1$
添加一元勢：整個過程迭代N次獲得最終輸出

　　能夠看到傳統方法在傳遞信息時，每一個像素點接受來自全圖其餘像素的信息，這在計算上是很是昂貴的，難以應用於實時系統。且對於MRF的大卷積核權重很難學。這些方法是應用在CNN的輸出上的，論文認爲CNN的隱藏層，包含了豐富的空間關係，可更好的用於處理空間關係。

　　論文提出了Spatial CNN，這裏的Spatial不是指Spatial Convolution，而是CNN經過特徵的設計架構傳遞空間信息。SCNN更有效的學習空間關係，能平滑的找出連續的有強先驗的結構目標。SCNN的總體架構以下：

(圖中SCNN的下標有D,U,R,L，這在結構上是相似的，方向上分別表示爲向下，向上，向右，向左)

先以SCNN_D分析：

　　考慮到SCNN應用在三維張量 $C \times H \times W$

$C \times H \times W$

　　具體來說，假設咱們有一個三維的張量 $K$

　　其中 $f$

Analysis

SCNN相比於傳統方法，有三個優點：

計算效率

　　SCNN與傳統的Dense MRF/CRF相比，在信息傳遞方向不一樣，示意圖以下所示：

圖(a)：MRF/CRF中每一個像素點會直接接收其餘全部像素點的信息(大卷積覈實現)，這其中有許多冗餘計算。
圖(b)：在SCNN中，信息是順序傳遞的。

　　假設張量有 $H$

$n_{i t e r}$

將傳遞信息做殘差

　　密集的MRF/CRF內是經過全部加權像素相加，這樣的計算花費很大。而RNN是經過梯度來優化的，考慮到這麼多層和列，依據殘差網絡的經驗，論文也採用殘差的方式來學習(計算公式描述的殘差學習)。這種殘差可認爲是對原始神經元的修正。實驗證實這樣的消息傳遞比基於LSTM的要好。

靈活性

　　歸功於SCNN的計算效率，它能夠很方便的集成到CNN的任何部分。一般 top hidden layer 包含了豐富的語義信息，這是應用SCNN的理想位置。在完整的SCNN模型中咱們在頂層的 feature map上用了四個方向的SCNN引入空間信息傳遞。

Experiment

　　論文在自發布的lane detection dataset 和 CityScapes數據集作了評估。
　　採用標準的SGD訓練器，學習率採用」poly」策略，初始學習率爲0.01，power爲0.9。batchsize設置爲12，動量爲0.9，權重衰減爲0.0001。迭代次數爲60K。模型架構在LargeFOV(DeepLabv2)基礎上修改，初始的13層採用的是在ImageNet上預訓練的VGG16層。全部的實驗使用的工做是Torch7.