論文筆記C3D：Learning Spatiotemporal Features with 3D Convolutional Networks

時間 2020-12-23

原文原文鏈接

思考對視頻進行描述，其描述子必須： 1.具有普遍性以適應各種場景； 2.必須短小緊湊 3.必須利於計算 4.必須易於實現圖像識別中，特徵提取的很完備和優秀，但不適用於視頻。本文致力於利用3D CNN提取時空特徵。我們只用線性分類器來分類它們，以驗證特徵好壞。並且這些特徵可以被拿來做各種視頻分析任務，無需針對任務再調整模型（就筆者知道的，包括video caption, temporal act