論文筆記C3D:Learning Spatiotemporal Features with 3D Convolutional Networks

思考 對視頻進行描述,其描述子必須:web 1.具備廣泛性以適應各類場景;網絡 2.必須短小緊湊ide 3.必須利於計算svg 4.必須易於實現測試 圖像識別中,特徵提取的很完備和優秀,但不適用於視頻。本文致力於利用3D CNN提取時空特徵。咱們只用線性分類器來分類它們,以驗證特徵好壞。而且這些特徵能夠被拿來作各類視頻分析任務,無需針對任務再調整模型(就筆者知道的,包括video caption,
相關文章
相關標籤/搜索