HOI任務：PPDM論文閱讀[精度]

時間 2020-09-19

標籤 hoi 任務 ppdm 論文閱讀精度简体版

原文原文鏈接

摘要

做者提出單階段的HOI檢測方法，表現SOTA。這是第一個實時的HOI檢測方法。傳統的的HOI檢測方法由兩個階段組成，可是它的有效性和效率受到順序和獨立架構的限制。文中做者提出PPDM的HOI檢測框架。在PPDM中，HOI被定義爲一個point triplet<human point,interaction point,object point>，其中human point和object point是檢測框的中心，interaction point是human point和object point的中點。網絡

PPDM包含了兩個並行分支，也就是點檢測分支和點匹配分支。其中點檢測分支預測是三個點，點匹配分支預測從interaction point到對應的human point和 object point的偏移。若是human point和object point是來自同一個interaction point，則認爲它們是匹配的。架構

在做者新穎的並行框架中，interaction point 隱式地爲人和物的檢測提供了上下文和正則化。抑制孤立的檢測boxes，由於它不可能造成有意義的HOI triplets(我的理解：人-物候選區單獨產生，沒有考慮到他們之間的聯繫，這種狀況不利於檢測，因此要抑制)，這增長了HOI的檢測精度。更況且人和物檢測的boxes只是應用在數量有限並過濾過的候選interation point,節省了大量計算消耗。此外，做者了創建了一個新的數據集HOI—A。框架

Introduction

傳統的HOI方法由兩個階段組成。第一個階段是人-物候選區檢測。這階段能夠獲得不少大量的人-物對候選區(M×N)。第二階段是預測每一個人-物候選區的交互。這種兩個階段方法的有效性和效率受到順序性和獨立性的限制。候選區的產生階段徹底基於對象檢測的置信度。每一個人/物候選去單獨產生。組合兩個候選區造成有意義的HOItriplet的可能性在第二階段並無考慮(我的理解：就是摘要中所說到的受到到獨立架構的限制)。因此，產生的人-物候選區可能質量較低，而且在第二階段，全部人-物候選區須要線性掃描，開銷很大。因此做者認爲須要非順序性的和高耦合度的框架。函數

PPDM的第一個分支估計中心點(interation,human和object point)，對應大小，和兩個局部偏移(human和object point)的點檢測。由於interaction point能夠認爲給人和物的檢測提供上下文信息，也就是說，對interation point的估計能夠隱式地加強人和物的檢測(我的理解：交互點的估計須要增長感覺野，由於須要人和物的信息，因此感覺野的增大也有利用爲人和物的檢測)。第二個分支是點匹配，估計interation point到human point和object point的偏移。spa

做者貢獻有三：（1）把HOI檢測任務視爲點檢測和點匹配問題，並提出單階段的PPDM。(2)PPDM是第一個在HOCI—DET和HOI—A benchmark中達到實時並表現SOTA的的HOI檢測方法。(3)HOI-A3d

Related Work

略略略....對象

Parallel point dection and matching

3.1 Overview

圖3.做者首先應用keg-point heatmap預測網絡來提取提取特徵，如Hourglass-104 or DLA-34。a) Point Detection Branch:基於提取的視覺特徵，做者利用三個卷積模塊來預測heatmap中的交互點，人中心點和物中心點，此外，迴歸的2-D size和人和物的局部偏移來產生最後的box。b) Point Matching Branch:此分支的第一步是分別迴歸從交互點到人中心點到物中心點的偏移。基於預測的點和位移，第二步是每個交互點匹配人中心點和物中心點來產生一系列的tirplets。blog

3.2 Point Detection

圖3中輸入圖像是,通過特徵提取器產生的特徵。人中心表示爲,其對應的大小爲，局部偏移量爲，彌補輸出步幅引發的離散化偏差。GT人中心點對應的低分辨率點(heatmap產生)爲的向下取正。ip

Point location loss. 直接檢測點比較困難，因此做者使用關鍵點估計方法將點映射到高斯核熱圖中。因此點檢測轉換爲heatmap估計任務。三個GT低分辨率的點分別映射到三個高斯heatmap，包括人中心點heatmap ,物中心點heatmap ,交互點heatmap ,其中和是多通道的。在特徵映射上，分別添加三個卷積網絡來產生三個heatmap。loss 函數爲：rem

Size and offset loss.四個卷積模塊添加到特徵映射來分別產生人和物的產生2-D size和局部偏移。爲

3.3 Point Matching

偏移分支有兩個卷積模塊組成。

Diaplacement loss:

Triplet matching: 判斷人中心點和物中心點是否匹配看兩個方面，一是交互點加上偏移後，靠不靠近大概的人/物的中心點，二是有高的置信度。

3.4 Loss and Inference

最後的loss爲：

在推理階段，做者首先在預測的人、物和交互點的heatmap上用一個3x3 max-pooing操做，而後經過對應的置信度選擇top K我的中心點，物中心點和交互點，最後triplets匹配。對於每一個匹配的人中心點，最後獲得的box爲：

4 我的總結

1.文章解決什麼問題:

解決傳統的兩階段HOI檢測問題。

2.用本身的話闡述文章思路

做者提出並行的單階段的HOI檢測網絡，PPDM。PPDM首先用key-point heatmap預測網絡來提取特徵，而後有兩個並行分支，分別是點檢測分支和點匹配分支。在點檢測分支中，預測三點（人中心點、物中心點、交互點）基於對應大小，以及局部偏移。在點匹配分支中，預測交互點到人中心點和物中心點的偏移，根據置信度選取TOP K我的中心點、物中心點和交互點，最後匹配triplets。

3.關鍵因素

直接預測點比較困難，因此將點映射到高斯核熱圖中，將點檢測轉換爲 heatmap估計任務。
傳統的HOI檢測是順序性的兩個階段，先候選區檢測再是預測交互，而PPDM則是並行分支。一個分支預測人-物box及其交互點，另外一個分支則預測交互點和人-物中心點的偏移。
傳統的HOI檢測人-物檢測是單獨，沒有考慮到他們之間的聯繫，而PPDM則是人中心點-交互點-物中心點一塊兒估計，爲了更好地檢測交互點，增長感覺野，感覺野中帶有人-物的上下文信息，這考慮到了它們之間的聯繫。

4.爲我所用