全景分割丨全景分割論文筆記

下一個項目將開始研究全景分割,這裏把去年和今年出來的paper簡單列了一下,全景分割框架內有不少細節,一時半會無法吃透,須要時間慢慢消化。算法

Panoptic Segmentation

核心思想

http://arxiv.org/abs/1801.00868bootstrap

  • 提出新的任務PS,結合了semantic segmentation和instance segmentation
  • 提出新的指標PQ
  • 在三個數據集上研究了人和機器的表現。

評價指標網絡

1558747622594

1558747508840

1558747541412

網絡架構

結合語義分割和實例分割的output。在Cityscapes數據集上,用PSPNet和Mask R-CNN提供語義和實例分割。架構

實驗結果

1558747870101

Panoptic FPN

核心思想

  • 基於Mask R-CNN with FPN,並做了一些小改變來生成語義分割結果。

1558748922842

網絡架構

  • Semantic segmentation branchapp

    從FPN的最深層開始,每層上採樣爲1/4scale的feature map。每次上採樣包含3x3conv,group norm,ReLU和2x雙線性插值。框架

1558749266676

​ 做者還考慮了內存和計算量,對比了以下的不一樣設計,發現FPN最高效。ide

1558750185203

  • 聯合訓練學習

    Instance segmentation losses:\(L_c(classification loss),L_b(bounding-box loss),L_m(mask loss)\)測試

    Semantic segmentation loss:\(L_s\)優化

    Final loss:\(\lambda_i(L_c+L_b+L_m)+\lambda_s L_s\)

實驗結果

1558750413324

DeeperLab

核心思想

  • 主要貢獻
    1. 提出了幾種網絡設計策略,特別是減小高分辨率輸入的內存佔用。
    2. 基於設計策略,提出了高效single-shot,bottom-up的DeeperLab。
    3. 提出了新的指標Parsing Covering,從基於區域的角度評估圖像解析結果。

1558751202058

  • Parsing Covering

    PQ只關注每一個實例的分割質量,而不考慮不一樣實例的大小,不一樣大小物體最終分割結果對PQ影響相同,因而提出了PC評價指標。

    1558753983192

    \(R,R'\)分別表示對應類別的預測segments與真實segments,\(|R|\)表示對應類別的實例在真實標註中像素點數量,\(N_i\)表示類別爲i的真實標註像素點總和。經過對大的實例物體賦予更大的權重,使評價指標可以更明顯地反映大物體的分割指標。

網絡架構

1558752262683

  • Encoder

    • Xception-71或MobileNetV2,並在末尾加了ASPP。
  • Decoder

    • 借鑑了DeepLabV3+。ASPP的輸出分別被1x1conv降維而後concat。
    • DeepLabV3+在concat前上採樣已經降維後的ASPP的輸出,但上採樣會帶來內存消耗,因而採用space-to-depth operation
    • 後面還使用兩個7x7的depthwise conv來增大感覺野,而後經過depth-to-space降維。

    1558752292410

  • Image Parsing Prediction Heads

    • Semantic Segmentation Head:最小化bootstrappd cross-entropy loss而且用了hard example mining,只回傳top-K errors。
    • Instance Segmentation Head
      1. the keypoint heatmap:預測像素是否位於關鍵點中心半徑爲R的圈內。
      2. the long-range offset map:預測像素到全部關鍵點的位置偏移,對每一個像素的long-range信息編碼。
      3. the short-range offset map:相似於long-- range其僅關注關鍵點半徑R內的像素。
      4. the middle-range offset map:預測關鍵點對之間的偏移。

1558752768441

  • Prediction Fusion:將四個預測融合到一個類不相關的instance segmentaion map,再最終融合semantic和instance segmentation map。
    • Instance Predicton:Recursive offset refinement、Keypoint localization、Instance detection、Assignment of pixels to instances
    • Semantic and Instance Prediction Fusion:從語義分割開始,被預測爲‘stuff’被分配惟一的instance label。其餘像素的instance label經過實例分割肯定,其semantic label則經過多數投票。

實驗結果

1558753715036

AUNet

核心思想

  • 設計了PAM和MAM,分別基於RPN階段的特徵圖與實例分割輸出的前景分割區域,爲stuff segmentation提供了物體層級注意力與像素層級注意力。

網絡架構

1558923232486

  • Attention-guided Modules

    • Proposal Attention Module(PAM)

      1558942134282

    • Mask Attention Module(MAM)

      1558942150189

      此外還提出了RoIUpsample

      1558942329895

實驗結果

1558925153257

UPSNet

核心思想

網絡架構

1558945934666

  • Backbone:Mask R-CNN(ResNet+FPN)

  • Instance Segmentation Head:Bbox regression output、cls output 和seg mask output。

  • Semantic Segmentation Head

    1558946035443

  • Panoptic Segmentation Head

    1558946078488

實驗結果

1558945679119

TASCNet

核心思想

  • 使實例分割和語義分割的預測輸出保持一致性。

網絡架構

1558942646121

  • Backbone:ResNet50+FPN,可捕獲更深層次的低級特徵,識別更普遍的對象尺度。
    • Stuff Head
      1. 用3x3conv 將維度從256降到128。
      2. 使用group normalization歸一化層。
      3. 使用額外的3x3conv,保持channel。
      4. 歸一化並上採樣到FPN最大尺度的feature map。
    • Things Head:相似於Mask R-CNN,有三個head。
  • TASC:將兩個head的輸出分佈分開。
  • Mask-Guided Fusion

實驗結果

1558943360427

JSIS-Net

核心思想

  • CNN聯合預測語義分割和實例分割輸出
  • 啓發式合併輸出來生成全景分割結果

網絡架構

1558943741064

  • 框架

    • Backbone:ResNet-50,被語義分割和實例分割共享。

    • semantic segmentation branch:首先採用Pyramid Pooling Module來生成feature map,再使用混合上採樣將預測變成原圖尺度。混合上採樣首先採用了轉置卷積而後是雙線性插值。

    • instance segmentation branch:基於Mask R-CNN。

      用Loss來平衡聯合學習。

      1558944262472

  • 合併輸出:須要解決兩類衝突:overlapping instance masks和conflicting stuff predictions
    • Ovelapping instance masks:對全部重疊的instance mask採用NMS,可是會移除不少true的預測。相反,咱們選擇利用每一個實例的機率圖來解決衝突。在多個instance mask預測像素屬於某個物體,採起特定像素處具備最高几率的。
    • Conflicting predictions for things classes:thing存在於語義分割和實例分割,無可避免會有衝突。因而咱們移除語義分割輸出中全部thing類並用最可能的stuff類替換它們,這樣語義分割輸出中只有stuff類。而後用實例分割輸出的thing替代語義分割輸出。

實驗結果

1558945342681

OANet

http://arxiv.org/abs/1903.05027

核心思想

1558919696770

  • Contribution

    1. 第一個提出全景分割中的end-to-end occlusion aware pipeline。

    2. 提出了一種spatial ranking module來解決重疊關係的模糊性。
    3. 在COCO全景分割數據集上達到了SOTA。

網絡架構

算法包含三部分

  1. stuff branch預測整張圖的stuff segmentation
  2. instance branch提供instance segmentation
  3. spatial ranking module爲每一個instance生成ranking score
  • End-to-end 網絡架構

    1558921001508

    • backbone:FPN
    • Instance segmentation:Mask R-CNN提供proposal classification score、proposal bb coordinates和proposal instance mask。
    • stuff segmentation:兩個3x3conv疊加在RPN的feature map上,以後concatenate。共享backbone和skip-connection。object信息能夠爲stuff提供上下文,在測試時,咱們只提取stuff preditions並將其歸一化爲機率。

    1558921175008

    爲了平衡兩種監督,咱們提出了multiple losses。

    \[L_{total}=(L_{rpn_cls}+L_{rpn_bbox}+L_{cls}+L_{bbox}+L_{mask})+\lambda \cdot L_{seg_(stuff+object)+L_{srm}}\]

  • Spatial Ranking Module

    當前的實例分割框架沒有考慮不類間的重疊問題,由於指標AP等不受此問題影響。然而全景分割任務中圖像中的像素固定,所以必須解決重疊問題,或一個像素多分配。

    1558922444388

    檢測分數一般對instance採用降序排列,因爲COCO中人更加頻繁,使得領帶被誤判爲人。

    因而本文提出spatial ranking module模塊,isntance tensor被初始化爲0,mapping value被設置爲1。而後咱們在tensor後採用large kernel conv來得到ranking score map。最後使用pixel-wise cross entropy loss來優化ranking score map。

    1558922209812

    1558922293175

實驗結果

1558922677700

Weakly- and Semi-Supervised Panoptic Segmentation

核心思想

  • 首個採用弱監督學習全景分割的方法,在沒有足夠全景分割標註的狀況下,學習模型。

總結

  • 能夠從如下三個角度分析與優化全景分割算法:
    1. 網絡框架搭建:這裏指提出一個總體網絡,實現端到端。
    2. 子任務融合(Subtask Fusion):一般stuff 和instance分支一般相互獨立,這裏指兩個分支間是否創建了關聯並相互促進。
    3. 全景輸出預測(Panoptic Output):合併stuff和instance分支結果時,一般採用先驗邏輯判斷;這裏指是否設計了針對全景分割結果合併的模塊。
Method Contribution End-to-end Subtask Fusion Panoptic Output COCO 2018 task
Panoptic Segmention define the ps task、Metric:PQ × × ×
Panoptic FPN Up-to-Down × × 40.9
JSIS-Net Try end-to-end × × 27.2
DeeperLab Bottom-to-Up、Metric:PC × -
UPSNet Panoptic Head × 46.6
OANet Occlusion Aware × 41.3
AUNet Attention-guided × 46.5
TASCNet Cross-task Consistency -

參考

  • paper

[1]Kirillov A, He K, Girshick R, et al. Panoptic segmentation[J]. arXiv preprint arXiv:1801.00868, 2018.

[2]Kirillov A, Girshick R, He K, et al. Panoptic Feature Pyramid Networks[J]. arXiv preprint arXiv:1901.02446, 2019.

[3]Yang T J, Collins M D, Zhu Y, et al. DeeperLab: Single-Shot Image Parser[J]. arXiv preprint arXiv:1902.05093, 2019.

[4]Li Y, Chen X, Zhu Z, et al. Attention-guided unified network for panoptic segmentation[J]. arXiv preprint arXiv:1812.03904, 2018.

[5]Xiong Y, Liao R, Zhao H, et al. UPSNet: A Unified Panoptic Segmentation Network[J]. arXiv preprint arXiv:1901.03784, 2019.

[6]Li J, Raventos A, Bhargava A, et al. Learning to fuse things and stuff[J]. arXiv preprint arXiv:1812.01192, 2018.

[7]de Geus D, Meletis P, Dubbelman G. Panoptic segmentation with a joint semantic and instance segmentation network[J]. arXiv preprint arXiv:1809.02110, 2018.

[8]Liu H, Peng C, Yu C, et al. An End-to-End Network for Panoptic Segmentation[J]. arXiv preprint arXiv:1903.05027, 2019.

  • blog

漫談全景分割

全景分割這一年,端到端之路

相關文章
相關標籤/搜索