Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

Abstract 卷積神經網絡(cnn)被認爲是一類有效的圖像識別模型。然而,當利用CNN學習時空視頻表示時,這並非不平凡。一些研究表明,執行3D卷積是一種捕獲視頻中時空維度的有益方法。然而,從頭開始開發非常深的3d cnn會導致昂貴的計算成本和內存需求。一個有效的問題是,爲什麼不爲3D CNN回收現成的2D網絡。在本文中,我們通過在空間域(相當於2D CNN)上模擬3×3×3卷積濾波器(相當於2
相關文章
相關標籤/搜索