下一個項目將開始研究全景分割,這裏把去年和今年出來的paper簡單列了一下,全景分割框架內有不少細節,一時半會無法吃透,須要時間慢慢消化。算法
http://arxiv.org/abs/1801.00868bootstrap
評價指標網絡
結合語義分割和實例分割的output。在Cityscapes數據集上,用PSPNet和Mask R-CNN提供語義和實例分割。架構
Semantic segmentation branchapp
從FPN的最深層開始,每層上採樣爲1/4scale的feature map。每次上採樣包含3x3conv,group norm,ReLU和2x雙線性插值。框架
做者還考慮了內存和計算量,對比了以下的不一樣設計,發現FPN最高效。ide
聯合訓練學習
Instance segmentation losses:\(L_c(classification loss),L_b(bounding-box loss),L_m(mask loss)\)測試
Semantic segmentation loss:\(L_s\)優化
Final loss:\(\lambda_i(L_c+L_b+L_m)+\lambda_s L_s\)
Parsing Covering
PQ只關注每一個實例的分割質量,而不考慮不一樣實例的大小,不一樣大小物體最終分割結果對PQ影響相同,因而提出了PC評價指標。
\(R,R'\)分別表示對應類別的預測segments與真實segments,\(|R|\)表示對應類別的實例在真實標註中像素點數量,\(N_i\)表示類別爲i的真實標註像素點總和。經過對大的實例物體賦予更大的權重,使評價指標可以更明顯地反映大物體的分割指標。
Encoder
Decoder
Image Parsing Prediction Heads
Attention-guided Modules
Proposal Attention Module(PAM)
Mask Attention Module(MAM)
此外還提出了RoIUpsample
Backbone:Mask R-CNN(ResNet+FPN)
Instance Segmentation Head:Bbox regression output、cls output 和seg mask output。
Semantic Segmentation Head:
Panoptic Segmentation Head:
框架
Backbone:ResNet-50,被語義分割和實例分割共享。
semantic segmentation branch:首先採用Pyramid Pooling Module來生成feature map,再使用混合上採樣將預測變成原圖尺度。混合上採樣首先採用了轉置卷積而後是雙線性插值。
instance segmentation branch:基於Mask R-CNN。
用Loss來平衡聯合學習。
http://arxiv.org/abs/1903.05027
Contribution
第一個提出全景分割中的end-to-end occlusion aware pipeline。
在COCO全景分割數據集上達到了SOTA。
算法包含三部分
End-to-end 網絡架構
爲了平衡兩種監督,咱們提出了multiple losses。
\[L_{total}=(L_{rpn_cls}+L_{rpn_bbox}+L_{cls}+L_{bbox}+L_{mask})+\lambda \cdot L_{seg_(stuff+object)+L_{srm}}\]
Spatial Ranking Module
當前的實例分割框架沒有考慮不類間的重疊問題,由於指標AP等不受此問題影響。然而全景分割任務中圖像中的像素固定,所以必須解決重疊問題,或一個像素多分配。
因而本文提出spatial ranking module模塊,isntance tensor被初始化爲0,mapping value被設置爲1。而後咱們在tensor後採用large kernel conv來得到ranking score map。最後使用pixel-wise cross entropy loss來優化ranking score map。
Method | Contribution | End-to-end | Subtask Fusion | Panoptic Output | COCO 2018 task |
---|---|---|---|---|---|
Panoptic Segmention | define the ps task、Metric:PQ | × | × | × | |
Panoptic FPN | Up-to-Down | √ | × | × | 40.9 |
JSIS-Net | Try end-to-end | √ | × | × | 27.2 |
DeeperLab | Bottom-to-Up、Metric:PC | √ | × | √ | - |
UPSNet | Panoptic Head | √ | × | √ | 46.6 |
OANet | Occlusion Aware | √ | × | √ | 41.3 |
AUNet | Attention-guided | √ | √ | × | 46.5 |
TASCNet | Cross-task Consistency | √ | √ | √ | - |
[1]Kirillov A, He K, Girshick R, et al. Panoptic segmentation[J]. arXiv preprint arXiv:1801.00868, 2018.
[2]Kirillov A, Girshick R, He K, et al. Panoptic Feature Pyramid Networks[J]. arXiv preprint arXiv:1901.02446, 2019.
[3]Yang T J, Collins M D, Zhu Y, et al. DeeperLab: Single-Shot Image Parser[J]. arXiv preprint arXiv:1902.05093, 2019.
[4]Li Y, Chen X, Zhu Z, et al. Attention-guided unified network for panoptic segmentation[J]. arXiv preprint arXiv:1812.03904, 2018.
[5]Xiong Y, Liao R, Zhao H, et al. UPSNet: A Unified Panoptic Segmentation Network[J]. arXiv preprint arXiv:1901.03784, 2019.
[6]Li J, Raventos A, Bhargava A, et al. Learning to fuse things and stuff[J]. arXiv preprint arXiv:1812.01192, 2018.
[7]de Geus D, Meletis P, Dubbelman G. Panoptic segmentation with a joint semantic and instance segmentation network[J]. arXiv preprint arXiv:1809.02110, 2018.
[8]Liu H, Peng C, Yu C, et al. An End-to-End Network for Panoptic Segmentation[J]. arXiv preprint arXiv:1903.05027, 2019.