【視頻理解論文】——Grouped Spatial-Temporal Aggregation for Efficient Action Recognition(ICCV2019)

一、個人直觀解讀: 文章動機:就是爲了對基於3DCNN的視頻行爲識別中的參數進行控制,同時想要達到3DCNN的效果 原文的描述就是一句話「reduce the complexity by decoupling the spatial and temporal filters」 採取的方式:還是借鑑了TSN,TRN,這一類的利用2DCNN的網絡結構,然後再次基礎上拓展了P3D的工作,如下圖所示也就是
相關文章
相關標籤/搜索