CVPR2017之ActionVLAD(對特徵整合方式的改進)

背景 關於視頻中的行爲識別,通常會出現這種識別錯誤的情況:即一段視頻中包含若干動作,譬如打籃球的視頻中包含跑、跳、扔東西等多種行爲,如何能正確地識別爲投籃? 當前行爲識別主要有兩種CNN結構:(1)第一種:3D spatio-temporal 卷積,這種方法識別準確率有待提升,優勢是速度較快。(2)第二種,也就是目前常用的方法:two-stream architectures,將視頻分解成圖像流和
相關文章
相關標籤/搜索