全文共2493字,預計學習時長15分鐘或更長
拍攝:Jezael Melgoza算法
來源:Unsplash數據庫
近年來,因爲現實應用需求大,在計算機視覺領域有關「人」的研究層出不窮,實體分割就是其中一員。微信
通常來講,圖像分割首先須要進行物體檢測,而後將物體從邊框檢測中分割開來。不久前,相似於Mask R-CNN的深度學習方法作到了同時檢測和分割物體。可是由於相似身份識別、跟蹤等與人類相關的研究變得愈來愈廣泛,人們可能會好奇爲何「人類」的獨特性卻被忽視了。網絡
「人類」的獨特性能夠很好的經過人的骨架來定義。而且,在多重遮擋的實例當中,人更好地將人體骨骼與邊框區分開來。框架
圖1 使用人體姿式比邊框更容易分割高度ide
本文將回顧《pose2seg:自由檢測人像實例分割》這篇論文。在這篇論文中,做者介紹了一種新型基於姿式的人像實例分割框架,可基於人體姿式來分離圖像實例。
什麼是實例分割?
圖2 常見的計算機視覺用例性能
咱們想把實例分割可用來在像素級別圖像中識別每一種物品。這說明標記得同時作到分類感知和實例感知,例如圖2(d)對羊一、羊2等做了不一樣的標記。學習
實例分割在如下常見用例中被認爲最具挑戰性:測試
分類:圖中有一我的。見圖2(a)編碼
物體檢測:在這張圖中,這些位置有5頭羊。見圖2(b)
語義分割:圖中有羊、人和狗的像素點。見圖2(c)
實例分割:在這些位置有五頭不一樣的羊,一我的和一隻狗。見圖2(d)
Pose2Seg:自由人像實例分割檢測
1. 直覺
Pose2Seg背後的產生緣由是儘管通常對象實例分割方法運做良好,但這些工做大部分基於強大的物體檢測。也就是說,首先生成大量建議局域,而後使用非極大值抑制(NMS)刪除冗餘區域,如圖3所示。
圖3(左)在非極大值抑制前,(右)在使用非極大值抑制以後。
當同類的兩個事物有很大面積的重疊,NMS會將其看成冗餘的候選區域,而後將它刪除。這種狀況說明基本上全部物體檢測方法面對大面積重疊都一籌莫展。
可是,在處理大多數「人類「時,可經過人類骨架進行定義。如圖1所示,人類骨架更適合用來區分兩個重合面積很大的人。比起邊框,他們能夠提供更清晰的我的信息,好比說不一樣身體部位的位置和可見性。
2. 網絡結構
總體網絡結構如圖4所示。網絡將全部存在的人類實例以RGB圖像輸入。首先,利用主幹網絡提取圖像特徵;而後,放射對齊模塊根據人體姿式將ROI對齊成統一的大小(爲了一致性)。此外,還爲每一個人體實例生成骨架特徵。
如今,ROI和骨架特徵都融合在一塊兒並傳遞給segmodule分割模塊,生成每一個ROI的實例分割。最後,仿射對齊操做中的估計矩陣進行反向對齊,獲得最終的分割結果。
網絡子模塊將在下面的小節中詳細描述。
圖4 網絡結構概覽:(a)仿射對齊操做(b)骨架特徵(c)SegModule結構
3. 仿射對齊操做
仿射對齊操做主要受快速R-CNN中的ROI池和掩模R-CNN中的ROI對齊的啓發。可是,當根據邊界框對齊人類時,仿射對齊被用來基於人類姿式的對齊。
要作到這一點,須要離線存儲最多見的人體姿式,稍後比較訓練/推理時的每一個輸入姿式(參見下面的圖5)。其想法旨在爲每一個估計姿式選擇最佳模板。這是經過估計輸入姿態和模板之間的仿射變換矩陣h,並選擇獲得最佳分數的仿射變換矩陣h來實現的。
在此P_u表明一個姿式模板,p表明對一我的的姿式估計。矩陣H是爲最適合每一個姿式模板選擇的仿射變換。最後,將圖像或特徵應用得分最高的變換H轉換爲所需的分辨率。
圖5 仿射對齊操做
4. 骨架特徵
圖6 骨架特徵模型
圖6顯示了骨架特性。對於此任務,將採用部分關聯字段(PAF)。PAF的輸出是每一個骨架2通道的向量場映射。PAF用於表示人體姿式的骨架結構以及身體部位的部分置信度地圖,以強調身體部位關鍵點周圍區域的重要性。
5. SEGModule
SEGModule是一種簡單的編碼器-解碼器體系結構,其接受域是一大考慮因素。因爲在對準後引入了骨架特徵,SEGModule須要有足夠的接收字段,這不只能徹底理解這些人工特徵,並且能學習它們與基礎網絡提取的圖像特徵之間的聯繫。所以,它是基於校準的ROI的分辨率進行設計的。
該網絡首先是7×7,stride -2的卷積層,而後是幾個標準的以實現足夠大的接收場的剩餘單元,用於ROI。而後,用雙線性上採樣層恢復分辨率,用另外一個剩餘單元和1×1卷積層預測最終結果。這樣一個具備10個剩餘單元的結構能夠實現約50個像素的接收場,至關於 64×64的對齊尺寸。單位越少,網絡的學習能力就越差,單位越多,學習能力就越差。
經驗和結果
Pose2Seg在兩類數據庫中獲得評測:(1)本文最大的驗證數據集——OCHuman,主要針對過分重合的人類;(2)COCOPerson(COCO的人類別),包含了平常生活中最多見的場景。
該算法主要與經常使用的基於檢測的實例分割框架Mask-RCNN進行了比較。
在使用OCHuman數據集對被遮擋數據進行測試時,如表1所示,Pose2Seg框架的性能比Mask R-CNN高出近50%。
表1 遮擋性能。全部的方法在COCOPersons上訓練,並在OCHuman上進行測試。
在通常狀況下的測試中,COCOPerson驗證數據集Pose2Seg在實例分割任務中獲得0.582ap(平均精度),而Mask R-CNN只獲得0.532。見表2
表2 通常狀況下表現
要從基於邊框的框架中更好地瞭解pose2seg的優勢,請參見下面的圖7。看看「開箱即用」是如何在面具R-CNN中不被分割的。
圖7 在遮擋案例中,pose2seg結果與MaskR-CNN的比較。使用預測的掩模生成邊框,以便更好地進行可視化和比較。
留言 點贊 關注
咱們一塊兒分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 「讀芯術」
添加小編微信:dxsxbb 便可進微信交流羣