視頻理解、人臉比對、深度相機的相關的問題

時間 2021-01-16

標籤 Deep Learning 简体版

原文原文鏈接

1 視頻理解目前最強的網絡結構是什麼？ A LSTM系列 B Two-Stream Network 基本原理是訓練兩個ConvNets，分別對視頻幀圖像（spatial）和密集光流（temporal）進行建模，兩個網絡的結構是一樣的，都是2D ConvNets。兩個stream的網絡分別對視頻的類別進行判斷，得到class score，然後進行分數的融合，得到最終的分類結

>>阅读原文<<