基於人類獨特性，實現自由人像實例分割檢測

時間 2019-12-11

標籤基於人類獨特實現自由人像實例分割檢測简体版

原文原文鏈接

全文共2493字，預計學習時長15分鐘或更長
拍攝：Jezael Melgoza算法

來源：Unsplash數據庫

近年來，因爲現實應用需求大，在計算機視覺領域有關「人」的研究層出不窮，實體分割就是其中一員。微信

通常來講，圖像分割首先須要進行物體檢測，而後將物體從邊框檢測中分割開來。不久前，相似於Mask R-CNN的深度學習方法作到了同時檢測和分割物體。可是由於相似身份識別、跟蹤等與人類相關的研究變得愈來愈廣泛，人們可能會好奇爲何「人類」的獨特性卻被忽視了。網絡

「人類」的獨特性能夠很好的經過人的骨架來定義。而且，在多重遮擋的實例當中，人更好地將人體骨骼與邊框區分開來。框架

圖1 使用人體姿式比邊框更容易分割高度ide

本文將回顧《pose2seg：自由檢測人像實例分割》這篇論文。在這篇論文中，做者介紹了一種新型基於姿式的人像實例分割框架，可基於人體姿式來分離圖像實例。
什麼是實例分割？

圖2 常見的計算機視覺用例性能

咱們想把實例分割可用來在像素級別圖像中識別每一種物品。這說明標記得同時作到分類感知和實例感知，例如圖2(d)對羊一、羊2等做了不一樣的標記。學習

實例分割在如下常見用例中被認爲最具挑戰性：測試

分類：圖中有一我的。見圖2（a）編碼

物體檢測：在這張圖中，這些位置有5頭羊。見圖2（b）

語義分割：圖中有羊、人和狗的像素點。見圖2（c）

實例分割：在這些位置有五頭不一樣的羊，一我的和一隻狗。見圖2（d）

Pose2Seg：自由人像實例分割檢測

1. 直覺
Pose2Seg背後的產生緣由是儘管通常對象實例分割方法運做良好，但這些工做大部分基於強大的物體檢測。也就是說，首先生成大量建議局域，而後使用非極大值抑制（NMS）刪除冗餘區域，如圖3所示。

圖3（左）在非極大值抑制前，（右）在使用非極大值抑制以後。

當同類的兩個事物有很大面積的重疊，NMS會將其看成冗餘的候選區域，而後將它刪除。這種狀況說明基本上全部物體檢測方法面對大面積重疊都一籌莫展。

可是，在處理大多數「人類「時，可經過人類骨架進行定義。如圖1所示，人類骨架更適合用來區分兩個重合面積很大的人。比起邊框，他們能夠提供更清晰的我的信息，好比說不一樣身體部位的位置和可見性。

2. 網絡結構
總體網絡結構如圖4所示。網絡將全部存在的人類實例以RGB圖像輸入。首先，利用主幹網絡提取圖像特徵；而後，放射對齊模塊根據人體姿式將ROI對齊成統一的大小（爲了一致性）。此外，還爲每一個人體實例生成骨架特徵。

如今，ROI和骨架特徵都融合在一塊兒並傳遞給segmodule分割模塊，生成每一個ROI的實例分割。最後，仿射對齊操做中的估計矩陣進行反向對齊，獲得最終的分割結果。

網絡子模塊將在下面的小節中詳細描述。

圖4 網絡結構概覽：（a）仿射對齊操做（b）骨架特徵（c）SegModule結構

3. 仿射對齊操做

仿射對齊操做主要受快速R-CNN中的ROI池和掩模R-CNN中的ROI對齊的啓發。可是，當根據邊界框對齊人類時，仿射對齊被用來基於人類姿式的對齊。

要作到這一點，須要離線存儲最多見的人體姿式，稍後比較訓練/推理時的每一個輸入姿式（參見下面的圖5）。其想法旨在爲每一個估計姿式選擇最佳模板。這是經過估計輸入姿態和模板之間的仿射變換矩陣h，並選擇獲得最佳分數的仿射變換矩陣h來實現的。

在此P_u表明一個姿式模板，p表明對一我的的姿式估計。矩陣H是爲最適合每一個姿式模板選擇的仿射變換。最後，將圖像或特徵應用得分最高的變換H轉換爲所需的分辨率。

圖5 仿射對齊操做

4. 骨架特徵

圖6 骨架特徵模型

圖6顯示了骨架特性。對於此任務，將採用部分關聯字段（PAF）。PAF的輸出是每一個骨架2通道的向量場映射。PAF用於表示人體姿式的骨架結構以及身體部位的部分置信度地圖，以強調身體部位關鍵點周圍區域的重要性。

5. SEGModule

SEGModule是一種簡單的編碼器-解碼器體系結構，其接受域是一大考慮因素。因爲在對準後引入了骨架特徵，SEGModule須要有足夠的接收字段，這不只能徹底理解這些人工特徵，並且能學習它們與基礎網絡提取的圖像特徵之間的聯繫。所以，它是基於校準的ROI的分辨率進行設計的。

該網絡首先是7×7，stride -2的卷積層，而後是幾個標準的以實現足夠大的接收場的剩餘單元，用於ROI。而後，用雙線性上採樣層恢復分辨率，用另外一個剩餘單元和1×1卷積層預測最終結果。這樣一個具備10個剩餘單元的結構能夠實現約50個像素的接收場，至關於 64×64的對齊尺寸。單位越少，網絡的學習能力就越差，單位越多，學習能力就越差。

經驗和結果

Pose2Seg在兩類數據庫中獲得評測：（1）本文最大的驗證數據集——OCHuman，主要針對過分重合的人類；（2）COCOPerson（COCO的人類別），包含了平常生活中最多見的場景。

該算法主要與經常使用的基於檢測的實例分割框架Mask-RCNN進行了比較。

在使用OCHuman數據集對被遮擋數據進行測試時，如表1所示，Pose2Seg框架的性能比Mask R-CNN高出近50%。

表1 遮擋性能。全部的方法在COCOPersons上訓練，並在OCHuman上進行測試。

在通常狀況下的測試中，COCOPerson驗證數據集Pose2Seg在實例分割任務中獲得0.582ap（平均精度），而Mask R-CNN只獲得0.532。見表2

表2 通常狀況下表現

要從基於邊框的框架中更好地瞭解pose2seg的優勢，請參見下面的圖7。看看「開箱即用」是如何在面具R-CNN中不被分割的。

圖7 在遮擋案例中，pose2seg結果與MaskR-CNN的比較。使用預測的掩模生成邊框，以便更好地進行可視化和比較。

留言點贊關注
咱們一塊兒分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體「讀芯術」
添加小編微信：dxsxbb 便可進微信交流羣

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。