[行爲識別]RPAN:An End-to-End Recurrent Pose-Attention Network for Action Recognition in Videos

這是一篇視頻動作識別的論文,但值得注意的是,他利用了pose estimation的信息,即視頻中人物的關節點的信息。論文沒有在常見的HMDB和UCF101上測試,而是在兩個帶有關節點信息的小數據集上進行了測試, Sub-JHMDB and PennAction。 一、文章框架 1.卷積特徵 本文首先用TSN提取每幀圖片的feature map, 9×15×1024。即上圖中的Ct,TSN並沒有畫
相關文章
相關標籤/搜索