HOI任務:PPDM論文閱讀[精度]

摘要

做者提出單階段的HOI檢測方法,表現SOTA。這是第一個實時的HOI檢測方法。傳統的的HOI檢測方法由兩個階段組成,可是它的有效性和效率受到順序和獨立架構的限制。文中做者提出PPDM的HOI檢測框架。在PPDM中,HOI被定義爲一個point triplet<human point,interaction point,object point>,其中human point和object point是檢測框的中心,interaction point是human point和object point的中點。網絡

PPDM包含了兩個並行分支,也就是點檢測分支點匹配分支。其中點檢測分支預測是三個點,點匹配分支預測從interaction point到對應的human point和 object point的偏移。若是human point和object point是來自同一個interaction point,則認爲它們是匹配的。架構

在做者新穎的並行框架中,interaction point 隱式地爲人和物的檢測提供了上下文和正則化。抑制孤立的檢測boxes,由於它不可能造成有意義的HOI triplets(我的理解:人-物候選區單獨產生,沒有考慮到他們之間的聯繫,這種狀況不利於檢測,因此要抑制),這增長了HOI的檢測精度。更況且人和物檢測的boxes只是應用在數量有限並過濾過的候選interation point,節省了大量計算消耗。此外,做者了創建了一個新的數據集HOI—A。框架

  1. Introduction

傳統的HOI方法由兩個階段組成。第一個階段是人-物候選區檢測。這階段能夠獲得不少大量的人-物對候選區(M×N)。第二階段是預測每一個人-物候選區的交互。這種兩個階段方法的有效性和效率受到順序性和獨立性的限制。候選區的產生階段徹底基於對象檢測的置信度。每一個人/物候選去單獨產生。組合兩個候選區造成有意義的HOItriplet的可能性在第二階段並無考慮(我的理解:就是摘要中所說到的受到到獨立架構的限制)。因此,產生的人-物候選區可能質量較低,而且在第二階段,全部人-物候選區須要線性掃描,開銷很大。因此做者認爲須要非順序性的和高耦合度的框架。函數

PPDM的第一個分支估計中心點(interation,human和object point),對應大小,和兩個局部偏移(human和object point)的點檢測。由於interaction point能夠認爲給人和物的檢測提供上下文信息,也就是說,對interation point的估計能夠隱式地加強人和物的檢測(我的理解:交互點的估計須要增長感覺野,由於須要人和物的信息,因此感覺野的增大也有利用爲人和物的檢測)。第二個分支是點匹配,估計interation point到human point和object point的偏移。spa

做者貢獻有三:(1)把HOI檢測任務視爲點檢測和點匹配問題,並提出單階段的PPDM。(2)PPDM是第一個在HOCI—DET和HOI—A benchmark中達到實時並表現SOTA的的HOI檢測方法。(3)HOI-A3d

  1. Related Work

略略略....對象

  1. Parallel point dection and matching

3.1 Overview

圖3.做者首先應用keg-point heatmap預測網絡來提取提取特徵,如Hourglass-104 or DLA-34。a) Point Detection Branch:基於提取的視覺特徵,做者利用三個卷積模塊來預測heatmap中的交互點,人中心點和物中心點,此外,迴歸的2-D size和人和物的局部偏移來產生最後的box。b) Point Matching Branch:此分支的第一步是分別迴歸從交互點到人中心點到物中心點的偏移。基於預測的點和位移,第二步是每個交互點匹配人中心點和物中心點來產生一系列的tirplets。blog

3.2 Point Detection

圖3中輸入圖像是​,通過特徵提取器產生的特徵​。人中心表示爲​,其對應的大小爲​,局部偏移量爲​,彌補輸出步幅引發的離散化偏差。GT人中心點對應的低分辨率點(heatmap產生)爲​的向下取正。ip

Point location loss. 直接檢測點比較困難,因此做者使用關鍵點估計方法將點映射到高斯核熱圖中。因此點檢測轉換爲heatmap估計任務。三個GT低分辨率的點分別映射到三個高斯heatmap,包括人中心點heatmap ​,物中心點heatmap ​,交互點heatmap ​,其中 ​和​是多通道的。在特徵映射​上,分別添加三個卷積網絡來產生三個heatmap。loss 函數爲:rem

Size and offset loss.四個卷積模塊添加到特徵映射​來分別產生人和物的產生2-D size和局部偏移。​爲

3.3 Point Matching

偏移分支有兩個卷積模塊組成。

Diaplacement loss:

Triplet matching: 判斷人中心點和物中心點是否匹配看兩個方面,一是交互點加上偏移後,靠不靠近大概的人/物的中心點,二是有高的置信度。

3.4 Loss and Inference

最後的loss爲:

在推理階段,做者首先在預測的人、物和交互點的heatmap上用一個3x3 max-pooing操做,而後經過對應的置信度選擇top K我的中心點,物中心點和交互點,最後triplets匹配。對於每一個匹配的人中心點,最後獲得的box爲:

4 我的總結

1.文章解決什麼問題:

解決傳統的兩階段HOI檢測問題。

2.用本身的話闡述文章思路

做者提出並行的單階段的HOI檢測網絡,PPDM。PPDM首先用key-point heatmap預測網絡來提取特徵,而後有兩個並行分支,分別是點檢測分支和點匹配分支。在點檢測分支中,預測三點(人中心點、物中心點、交互點)基於對應大小,以及局部偏移。在點匹配分支中,預測交互點到人中心點和物中心點的偏移,根據置信度選取TOP K我的中心點、物中心點和交互點,最後匹配triplets。

3.關鍵因素

  • 直接預測點比較困難,因此將點映射到高斯核熱圖中,將點檢測轉換爲 heatmap估計任務。
  • 傳統的HOI檢測是順序性的兩個階段,先候選區檢測再是預測交互,而PPDM則是並行分支。一個分支預測人-物box及其交互點,另外一個分支則預測交互點和人-物中心點的偏移。
  • 傳統的HOI檢測人-物檢測是單獨,沒有考慮到他們之間的聯繫,而PPDM則是人中心點-交互點-物中心點一塊兒估計,爲了更好地檢測交互點,增長感覺野,感覺野中帶有人-物的上下文信息,這考慮到了它們之間的聯繫。

4.爲我所用

  • 經過key-point heatmap網絡,將直接點預測轉換爲在heatmap上預測。
  • PPDM的並行分支分別負責不一樣的任務。
相關文章
相關標籤/搜索