CVPR 2020 論文大盤點-動作識別篇

本文盤點所有CVPR 2020 動作識別(Action Recognition 相關論文,該方向也常被稱爲視頻分類(Video Classification 。從後面的名字可以看出該任務就是對含人體動作的視頻進行分類。

(關於動作檢測、分割、活動識別等方向將在後續文章整理)

該部分既包含基於普通視頻的動作識別,也包含基於深度圖和基於骨架的動作識別。

因爲視頻既包含空域信息,又包含時域信息,所以時空信息的融合、特徵提取是該領域的重要方向。

因爲視頻往往數據量大,信息冗餘,是典型的計算密集型任務,以往的方法往往(如3D CNN)計算代價很高,提高(訓練/推斷)速度也是不少論文研究的方向。

特別值得一提的是斯坦福大學、MIT、谷歌發表的兩篇基於視頻的無監督表示學習,不僅可用於動作識別,其可以看作爲通用的視覺特徵提取方法,相信會對未來的計算機視覺研究產生重要影響。

大家可以在:

http://openaccess.thecvf.com/CVPR2020.py

按照題目下載這些論文。

如果想要下載所有CVPR 2020論文,請點擊這裏:

CVPR 2020 論文全面開放下載,含主會和workshop

   動作識別(Action Recognition)

細粒度動作識別的多模態域適應技術,使用RGB與光流數據,解決動作識別在不同數據集上訓練和測試性能下降的問題。

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

作者 | Jonathan Munro, Dima Damen

單位 | 布里斯托大學

時間金字塔網絡(TPN)用於動作識別,可方便「即插即用」到2D和3D網絡中,顯著改進動作識別的精度。

Temporal Pyramid Network for Action Recognition

作者 | Ceyuan Yang, Yinghao Xu, Jianping Shi, Bo Dai, Bolei Zhou

單位 | 香港中文大學;商湯

代碼 | Temporal Pyramid Network for Action Recognition

主頁 | https://decisionforce.github.io/TPN/

提出motion excitation (ME) 模塊 和 multiple temporal aggregation (MTA) 模塊用於捕獲短程和長程時域信息,提高動作識別的速度和精度。

TEA: Temporal Excitation and Aggregation for Action Recognition

作者 | Yan Li, Bin Ji, Xintian Shi, Jianguo Zhang, Bin Kang, Limin Wang

單位 | 騰訊;南京大學;南方科技大學

提取視頻特徵往往需要計算密集的3D CNN操作,該文發明一種 Gate-Shift Module (GSM) 模塊利用分組空間選通方法控制時空分解交互,大大降低了視頻動作識別算法複雜度。

Gate-Shift Networks for Video Action Recognition

作者 | Swathikiran Sudhakaran, Sergio Escalera, Oswald Lanz

單位 | FBK,Trento, Italy;巴塞羅那大學

代碼 | https://github.com/swathikirans/GSM

高效視頻識別的擴展架構,降低參數量減少計算量

X3D: Expanding Architectures for Efficient Video Recognition

作者 | Christoph Feichtenhofer

單位 | FAIR

代碼 | https://github.com/facebookresearch/SlowFast

   3D CNN的正則化

該文提出一種簡單有效的針對3D CNN 的正則化方法:Random Mean Scaling (RMS),防止過擬合。

Regularization on Spatio-Temporally Smoothed Feature for Action Recognition

作者 | Jinhyung Kim, Seunghwan Cha, Dongyoon Wee, Soonmin Bae, Junmo Kim

單位 | KAIST;卡內基梅隆大學;Clova AI, NAVER Corp

   結合視覺、語音、文本的動作識別

動作識別的跨模態監督信息提取(文本-語音-視覺識別的結合)

該文研究了一個非常有意思的問題,通過電影視頻中語音與對應臺詞構建一個動作識別的分類器,然後用此模型對大規模的視頻數據集進行了弱監督標註,使用此標註數據訓練的模型在動作識別問題中取得了superior的精度。

Speech2Action: Cross-Modal Supervision for Action Recognition

作者 | Arsha Nagrani, Chen Sun, David Ross, Rahul Sukthankar, Cordelia Schmid, Andrew Zisserman

單位 | VGG, Oxford;谷歌;DeepMind

面對視頻分類中巨大的數據冗餘,該文提出圖像-音頻對的概念,圖像表示了視頻中絕大部分表觀信息,音頻表示了視頻中的動態信息,找到這些圖像-音頻對後再選擇一部分用於視頻分類,精度達到SOTA,還大大提高了動作識別的速度。

Listen to Look: Action Recognition by Previewing Audio

作者 | Ruohan Gao, Tae-Hyun Oh, Kristen Grauman, Lorenzo Torresani

單位 | 得克薩斯大學奧斯汀分校;FAIR

代碼 | https://github.com/facebookresearch/Listen-to-Look

   動作識別中的時空信息融合

如何在動作識別中進行更好的時空信息融合是涉及更好的動作識別算法的關鍵,該文提出在概率空間理解、分析時空融合策略,大大提高分析效率,並提出新的融合策略,實驗證明該策略大大提高了識別精度。

Spatiotemporal Fusion in 3D CNNs: A Probabilistic View

作者 | Yizhou Zhou, Xiaoyan Sun, Chong Luo, Zheng-Jun Zha, Wenjun Zeng

單位 | 中國科學技術大學;微軟亞洲研究院

   視頻模型訓練策略

何愷明團隊作品。該文提出一種多網格訓練策略訓練視頻分類模型,大大降低訓練時間,精度得以保持,甚至還有提高。

A Multigrid Method for Efficiently Training Video Models

作者 | Chao-Yuan Wu, Ross Girshick, Kaiming He, Christoph Feichtenhofer, Philipp Krahenbuhl

單位 | 得克薩斯大學奧斯汀分校;FAIR

代碼| https://github.com/facebookresearch/SlowFast

解讀 | https://zhuanlan.zhihu.com/p/105287699

   少樣本視頻分類

李飛飛團隊作品。該文提出動作基因組(Action Genome)的概念,將動作看作時空場景圖的組合,在少樣本的動作識別問題中提高了精度。

Action Genome: Actions As Compositions of Spatio-Temporal Scene Graphs

作者 | Jingwei Ji, Ranjay Krishna, Li Fei-Fei, Juan Carlos Niebles

單位 | 斯坦福大學

通過視頻信號的時序校正模塊提高少樣本的視頻分類精度

Few-Shot Video Classification via Temporal Alignment

作者 | Kaidi Cao, Jingwei Ji, Zhangjie Cao, Chien-Yi Chang, Juan Carlos Niebles

單位 | 斯坦福大學

   基於視頻的無監督表示學習

無監督嵌入的視頻表示學習。因爲視頻中含有豐富的動態結構信息,而且無處不在,所以是無監督視覺表示學習的最佳素材。本文在視頻中學習視覺嵌入,使得在嵌入空間相似視頻距離近,而無關視頻距離遠。在大量視頻中所學習的視覺表示可大幅提高動作識別、圖像分類的精度。

(感覺這個工作很有價值,代碼開源,值得follow)

Unsupervised Learning From Video With Deep Neural Embeddings

作者 | Chengxu Zhuang, Tianwei She, Alex Andonian, Max Sobol Mark, Daniel Yamins

單位 | 斯坦福大學;MIT

代碼 | https://github.com/neuroailab/VIE

同上一篇,同樣是希望在大規模視頻數據中學習視覺表示。

多模多任務的無監督表示學習,跨模態通過蒸餾進行表示共享。

該自監督方法打敗了ImageNet數據集上訓練的有標註數據訓練的模型。

Evolving Losses for Unsupervised Video Representation Learning

作者 | AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo

單位 | 谷歌

   合成動作識別

用於識別訓練集沒有的,對操作物體進行替換的動作

Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks

作者 | Joanna Materzynska, Tete Xiao, Roei Herzig, Huijuan Xu, Xiaolong Wang, Trevor Darrell

單位 | 牛津大學;伯克利;以色列特拉維夫大學

代碼 | https://github.com/joaanna/something_else

主頁 | https://joaanna.github.io/something_else/

   深度視頻的動作識別

3DV: 3D Dynamic Voxel for Action Recognition in Depth Video

作者 | Yancheng Wang, Yang Xiao, Fu Xiong, Wenxiang Jiang, Zhiguo Cao, Joey Tianyi Zhou, Junsong Yuan

單位 | 華中科技大學;曠視;A*STAR等

代碼 | https://github.com/3huo/3DV-Action

   基於骨架的動作識別

Skeleton-Based的動作識別,基於圖卷積方法

Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

作者 | Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang

單位 | 悉尼大學;國科大&CASIA;悉尼大學計算機視覺研究小組

代碼 | https://github.com/kenziyuliu/ms-g3d

Skeleton-Based動作識別,Shift Graph卷積網絡方法

Skeleton-Based Action Recognition With Shift Graph Convolutional Network

作者 | Ke Cheng, Yifan Zhang, Xiangyu He, Weihan Chen, Jian Cheng, Hanqing Lu

單位 | 中科院;國科大等

代碼 | https://github.com/kchengiva/Shift-GCN

無監督Skeleton-Based的動作識別。該文提出一種編碼器-解碼器的RNN模型,可進行無監督的聚類,而此聚類結果可關聯動作的類別,即也可以可以堪爲預測。

此無監督方法在基於骨架的動作識別中取得了與監督學習方法相相近的精度!

(也許表明:人體動作本身類間差異就足夠大?)

PREDICT & CLUSTER: Unsupervised Skeleton Based Action Recognition

作者 | Kun Su, Xiulong Liu, Eli Shlizerman

單位 | 華盛頓大學

代碼 | https://github.com/shlizee/Predict-Cluster

語義引導的神經網絡,用於Skeleton-Based人類動作識別,SGN 方案僅需非常小的參數量(僅0.69M)就實現了很高的識別精度

Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition

作者 | Pengfei Zhang, Cuiling Lan, Wenjun Zeng, Junliang Xing, Jianru Xue, Nanning Zheng

單位 | 西安交通大學;微軟亞洲研究院;中科院自動化所

代碼 | https://github.com/microsoft/SGN

解讀 | CVPR 2020丨微軟亞洲研究院精選論文一覽

上下文感知的圖卷積,用於Skeleton-Based動作識別

Context Aware Graph Convolution for Skeleton-Based Action Recognition

作者 | Xikun Zhang, Chang Xu, Dacheng Tao

單位 | UBTECH Sydney AI Centre;悉尼大學

   數據集

面向細粒度動作分析的層級化高質量數據集

FineGym: A Hierarchical Video Dataset for Fine-Grained Action Understanding

作者 | Dian Shao, Yue Zhao, Bo Dai, Dahua Lin

單位 | 香港中文大學與商湯聯合實驗室 

代碼/數據 | https://sdolivia.github.io/FineGym/

備註 | CVPR2020 Oral ,評審滿分論文

解讀 | https://zhuanlan.zhihu.com/p/130720627

 


往期"精彩閱讀"

備註:動作

人體動作檢測與識別交流羣

動作識別、動作檢測等技術,

若已爲CV君其他賬號好友請直接私信。

我愛計算機視覺

微信號:aicvml

QQ羣:805388940

微博知乎:@我愛計算機視覺

投稿:[email protected]

網站:www.52cv.net

在看,讓更多人看到