讀書筆記:Beyond Short Snippets: Deep Networks for Video Classification

主要關注兩個點:如何獲取視頻全局上的表達(考慮更長的時序上的信息),在獲取全局表達時如何避免冗餘的計算量(相比3D卷積核直接應用在所有frame stacks)。 主要工作 Feature Pooling Architectures LSTM Architecture 其他 主要工作 論文中討論了兩種方法,一種是提取每一幀的深度卷積特徵,再使用不同的pooling層結構進行特徵融合,得到最終輸出。
相關文章
相關標籤/搜索