譯:Convolutional Two-Stream Network Fusion for Video Action Recognition

用於視頻動作識別的卷積雙流網絡融合 **摘要:**近年來,卷積神經網絡對視頻中人類行爲識別的應用提出了不同的解決方案,用於整合外觀(spatial)和運動(temporal)信息。爲了更好地利用時空信息,我們研究了許多在空間和時間上融合卷積網絡層的方法。我們得出以下結論: (i)不是在softmax層進行融合,而是在一個卷積層上融合空間和時間網絡,即不會損失性能,而且在參數上有大量的節省;(ii)
相關文章
相關標籤/搜索