姿態估計及跟蹤「Detect-and-Track: Efficient Pose Estimation in Videos」

基於行人檢測和視頻理解,估計及跟蹤人體關鍵點。首先在單幀或短視頻剪輯估計關鍵點,然後使用輕量級網絡生成關鍵點的估計。單幀的估計使用Mask-RCNN,3D Mask-RCNN。在PoseTrack上對比,MOTA爲51.8%。 相關工作 單幀圖像姿態估計:Mask R-CNN,DeeperCut,[4][33] 多幀姿態估計:PoseTrack[22],[18] 視頻多目標跟蹤:遞歸神經網絡[32
相關文章
相關標籤/搜索