論文筆記C3D:Learning Spatiotemporal Features with 3D Convolutional Networks

思考 對視頻進行描述,其描述子必須: 1.具有普遍性以適應各種場景; 2.必須短小緊湊 3.必須利於計算 4.必須易於實現 圖像識別中,特徵提取的很完備和優秀,但不適用於視頻。本文致力於利用3D CNN提取時空特徵。我們只用線性分類器來分類它們,以驗證特徵好壞。並且這些特徵可以被拿來做各種視頻分析任務,無需針對任務再調整模型(就筆者知道的,包括video caption, temporal act
相關文章
相關標籤/搜索