視頻理解、人臉比對、深度相機的相關的問題

  1  視頻理解目前最強的網絡結構是什麼? A  LSTM系列   B Two-Stream Network        基本原理是訓練兩個ConvNets,分別對視頻幀圖像(spatial)和密集光流(temporal)進行建模,兩個網絡的結構是一樣的,都是2D ConvNets。兩個stream的網絡分別對視頻的類別進行判斷,得到class score,然後進行分數的融合,得到最終的分類結
相關文章
相關標籤/搜索