《A Closer Look at Spatiotemporal Convolutions for Action Recognition》總結

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》   作者主要觀點: 3D ResNets要比相同深度的2D ResNets,在大規模動作識別基準(如Sports-1M和Kinetics)上的訓練識別結果更好。   研究方法: 實驗分兩部分: 以18層ResNet模型爲基礎,將本文提出的時空卷積與以往的卷積方
相關文章
相關標籤/搜索