OCRNet: 目標區域上下文信息的特徵表達

點擊上方「視學算法」，選擇「星標」git

乾貨第一時間送達算法

論文下載： http://xxx.itp.ac.cn/pdf/1909.11065.pdf

代碼下載： https://git.io/openseg and https://git.io/HRNet.OCR

簡介：

本文研究語義分割中的上下文聚合問題。基於像素的標籤是像素所屬對象的類別，本文提出了一種簡單而有效的方法，即對象上下文表示，經過利用相應對象類的表示來表徵像素。首先，在地面真值分割的監督下學習目標區域。其次，經過彙集對象區域中像素的表示來計算對象區域的表示。最後，計算每一個像素和每一個目標區域之間的關係，並用對象上下文表示來加強每一個像素的表示，這是全部對象區域表示的加權聚合。實驗代表，提出的方法在不一樣的基準點上取得了具備競爭力的表現。HRNet + OCR + SegFix版本在2020ECCV Cityscapes 得到了第一名。

本文主要貢獻：

舉例說明,（a）爲以ASPP爲例的多尺度上下文以及（b）爲標記像素的OCR上下文。ASPP: 上下文是一組稀疏採樣的像素，標記爲黃色和藍色框。不一樣顏色的像素對應不一樣的膨脹率。這些像素同時分佈在目標區域和背景區域。OCR: 上下文是位於對象中的一組像素(用藍色區域標記)。

方法：

語義分割是將圖片中的像素按照標籤分類。

背景：

1.多尺度上下文：

ASPP模塊是用來捕捉多尺度上下文信息，經過若干個平行的帶孔卷積：

輸出的多尺度上下文表示是由並行擴展卷積的表示輸出的級聯。基於擴展卷積的多尺度上下文方案在不丟失分辨率的狀況下捕獲多尺度上下文。

2.關係上下文：

經過計算每一個像素的上下文考慮關係信息：

主題框架有兩種，一是採用ResNet-101(輸出步幅爲8)，二是HRNet-W48(輸出步幅爲4)，前者的stage-3用來預測初略的分割圖，將stage-4通過一個3x3卷積輸出通道爲512，而後輸入到OCR模塊中。對於HRNet則直接將最後的輸出輸入到OCR模塊中。

在OCR模塊中使用一個線性單元1x1的卷積層，經過像素智能的交叉熵損失監督生成軟目標區域。

目標區域監控和像素區域關係估計，從上表能夠看出，目標區域監控和像素-區域關係方案對性能都很重要。

表中的比較代表，該方法具備優越的性能。緣由是利用了像素表示和區域表示來計算關係。區域表示法可以對特定圖像中的目標進行特徵描述，所以對於特定圖像的關係比單純使用像素表示法更爲精確。

在語義分割上的實驗：

與多尺度上下文方案的比較

咱們能夠發現OCR的性能一直優於它；在公平比較下，PPM和ASPP跨越不一樣的基準。

與關係上下文模式的比較：

該方法在不一樣的基準測試中始終表現得更好。值得注意的是，Double Attention對區域數字選擇很敏感，將這個超參數調整爲64，它的結果表現最佳。

模型複雜度比較：

使用大小爲[1*2048*128*128]的輸入feature map 在推理過程當中評估其複雜性。這些數字是在一個P40 GPU與CUDA 10.0。全部的數字都越小越好，從上表能夠看出 OCR須要最少的GPU內存和最少的運行時間。

在Ctiyscapes數據集上和先進的算法比較：

在全景分割上的實驗：

COCO val 2017全景分割結果：

可視化分割結果：

總結：

在本文中，提出了一種對象上下文表示方法來進行語義分割。成功的主要緣由是像素的標籤是像素所在對象的標籤，經過對每一個像素進行相應的對象區域表示來加強像素表示。實驗結果代表，該方法在各類基準上帶來了一致性的改進。

本文僅作學術分享，若有侵權，請聯繫刪文。

以爲有用，麻煩給個贊和在看~

本文分享自微信公衆號 - 視學算法（visualAlgorithm）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。微信

OCRNet: 目標區域上下文信息的特徵表達 | ECCV 2020

以爲有用，麻煩給個贊和在看~