【視頻理解論文】——Grouped Spatial-Temporal Aggregation for Efficient Action Recognition（ICCV2019）

時間 2021-01-02

原文原文鏈接

一、個人直觀解讀：文章動機：就是爲了對基於3DCNN的視頻行爲識別中的參數進行控制，同時想要達到3DCNN的效果原文的描述就是一句話「reduce the complexity by decoupling the spatial and temporal filters」採取的方式：還是借鑑了TSN，TRN，這一類的利用2DCNN的網絡結構，然後再次基礎上拓展了P3D的工作，如下圖所示也就是

>>阅读原文<<