CVPR2017之ActionVLAD(對特徵整合方式的改進）

時間 2021-01-09

原文原文鏈接

背景關於視頻中的行爲識別，通常會出現這種識別錯誤的情況：即一段視頻中包含若干動作，譬如打籃球的視頻中包含跑、跳、扔東西等多種行爲，如何能正確地識別爲投籃？當前行爲識別主要有兩種CNN結構：（1）第一種：3D spatio-temporal 卷積，這種方法識別準確率有待提升，優勢是速度較快。（2）第二種，也就是目前常用的方法：two-stream architectures，將視頻分解成圖像流和

>>阅读原文<<