讀書筆記：Beyond Short Snippets: Deep Networks for Video Classification

時間 2021-01-13

原文原文鏈接

主要關注兩個點：如何獲取視頻全局上的表達（考慮更長的時序上的信息），在獲取全局表達時如何避免冗餘的計算量（相比3D卷積核直接應用在所有frame stacks）。主要工作 Feature Pooling Architectures LSTM Architecture 其他主要工作論文中討論了兩種方法，一種是提取每一幀的深度卷積特徵，再使用不同的pooling層結構進行特徵融合，得到最終輸出。

>>阅读原文<<