做者提出單階段的HOI檢測方法,表現SOTA。這是第一個實時的HOI檢測方法。傳統的的HOI檢測方法由兩個階段組成,可是它的有效性和效率受到順序和獨立架構的限制。文中做者提出PPDM的HOI檢測框架。在PPDM中,HOI被定義爲一個point triplet<human point,interaction point,object point>,其中human point和object point是檢測框的中心,interaction point是human point和object point的中點。網絡
PPDM包含了兩個並行分支,也就是點檢測分支和點匹配分支。其中點檢測分支預測是三個點,點匹配分支預測從interaction point到對應的human point和 object point的偏移。若是human point和object point是來自同一個interaction point,則認爲它們是匹配的。架構
在做者新穎的並行框架中,interaction point 隱式地爲人和物的檢測提供了上下文和正則化。抑制孤立的檢測boxes,由於它不可能造成有意義的HOI triplets(我的理解:人-物候選區單獨產生,沒有考慮到他們之間的聯繫,這種狀況不利於檢測,因此要抑制),這增長了HOI的檢測精度。更況且人和物檢測的boxes只是應用在數量有限並過濾過的候選interation point,節省了大量計算消耗。此外,做者了創建了一個新的數據集HOI—A。框架
傳統的HOI方法由兩個階段組成。第一個階段是人-物候選區檢測。這階段能夠獲得不少大量的人-物對候選區(M×N)。第二階段是預測每一個人-物候選區的交互。這種兩個階段方法的有效性和效率受到順序性和獨立性的限制。候選區的產生階段徹底基於對象檢測的置信度。每一個人/物候選去單獨產生。組合兩個候選區造成有意義的HOItriplet的可能性在第二階段並無考慮(我的理解:就是摘要中所說到的受到到獨立架構的限制)。因此,產生的人-物候選區可能質量較低,而且在第二階段,全部人-物候選區須要線性掃描,開銷很大。因此做者認爲須要非順序性的和高耦合度的框架。函數
PPDM的第一個分支估計中心點(interation,human和object point),對應大小,和兩個局部偏移(human和object point)的點檢測。由於interaction point能夠認爲給人和物的檢測提供上下文信息,也就是說,對interation point的估計能夠隱式地加強人和物的檢測(我的理解:交互點的估計須要增長感覺野,由於須要人和物的信息,因此感覺野的增大也有利用爲人和物的檢測)。第二個分支是點匹配,估計interation point到human point和object point的偏移。spa
做者貢獻有三:(1)把HOI檢測任務視爲點檢測和點匹配問題,並提出單階段的PPDM。(2)PPDM是第一個在HOCI—DET和HOI—A benchmark中達到實時並表現SOTA的的HOI檢測方法。(3)HOI-A3d
略略略....對象
圖3.做者首先應用keg-point heatmap預測網絡來提取提取特徵,如Hourglass-104 or DLA-34。a) Point Detection Branch:基於提取的視覺特徵,做者利用三個卷積模塊來預測heatmap中的交互點,人中心點和物中心點,此外,迴歸的2-D size和人和物的局部偏移來產生最後的box。b) Point Matching Branch:此分支的第一步是分別迴歸從交互點到人中心點到物中心點的偏移。基於預測的點和位移,第二步是每個交互點匹配人中心點和物中心點來產生一系列的tirplets。blog
圖3中輸入圖像是,通過特徵提取器產生的特徵。人中心表示爲,其對應的大小爲,局部偏移量爲,彌補輸出步幅引發的離散化偏差。GT人中心點對應的低分辨率點(heatmap產生)爲的向下取正。ip
Point location loss. 直接檢測點比較困難,因此做者使用關鍵點估計方法將點映射到高斯核熱圖中。因此點檢測轉換爲heatmap估計任務。三個GT低分辨率的點分別映射到三個高斯heatmap,包括人中心點heatmap ,物中心點heatmap ,交互點heatmap ,其中 和是多通道的。在特徵映射上,分別添加三個卷積網絡來產生三個heatmap。loss 函數爲:rem
Size and offset loss.四個卷積模塊添加到特徵映射來分別產生人和物的產生2-D size和局部偏移。爲
偏移分支有兩個卷積模塊組成。
Diaplacement loss:
Triplet matching: 判斷人中心點和物中心點是否匹配看兩個方面,一是交互點加上偏移後,靠不靠近大概的人/物的中心點,二是有高的置信度。
最後的loss爲:
在推理階段,做者首先在預測的人、物和交互點的heatmap上用一個3x3 max-pooing操做,而後經過對應的置信度選擇top K我的中心點,物中心點和交互點,最後triplets匹配。對於每一個匹配的人中心點,最後獲得的box爲:
1.文章解決什麼問題:
解決傳統的兩階段HOI檢測問題。
2.用本身的話闡述文章思路
做者提出並行的單階段的HOI檢測網絡,PPDM。PPDM首先用key-point heatmap預測網絡來提取特徵,而後有兩個並行分支,分別是點檢測分支和點匹配分支。在點檢測分支中,預測三點(人中心點、物中心點、交互點)基於對應大小,以及局部偏移。在點匹配分支中,預測交互點到人中心點和物中心點的偏移,根據置信度選取TOP K我的中心點、物中心點和交互點,最後匹配triplets。
3.關鍵因素
4.爲我所用