視頻特徵提取:C3D/Learning Spatiotemporal Features with 3D Convolutional Networks

總結 3D conv在之前並沒有廣爲盛行於視頻處理領域。作者認爲,相比會丟失時間信息的2D conv,3D conv非常適合時空特徵學習(即針對視頻),下圖是2D conv和3D conv的區別。 作者使用基於3x3x3的3D conv的帶有全連接層的深度卷積神經網絡對視頻進行特徵提取,同時驗證了3x3x3的3D conv性能相對其他大小的3D conv更優秀。 並且,訓練好的C3D可以作爲優秀的
相關文章
相關標籤/搜索