深度學習在處理視頻上幾種主要技術方法

深度學習在視頻內容表達上主要的幾種技術方法。網絡

參考:https://yq.aliyun.com/articles/39134架構

這裏只作簡要總結,具體請參考原文章框架

1. 基於單幀的識別方法性能

一種最直接的方法就是將視頻進行截幀,而後基於圖像粒度(單幀)的進行deep learninig 表達,視頻的某一幀經過網絡得到一個識別結果。然而一張圖相對整個視頻是很小的一部分,特別當這幀圖沒有那麼的具備區分度,或是一些和視頻主題無關的圖像,則會讓分類器摸不着頭腦。所以,學習視頻時間域上的表達是提升視頻識別的主要因素。固然,這在運動性強的視頻上纔有區分度,在較靜止的視頻上只能靠圖像的特徵了。 學習

2. 基於CNN擴展網絡的識別方法測試

它的整體思路是在CNN框架中尋找時間域上的某個模式來表達局部運動信息,從而得到整體識別性能的提高。網絡結構總共有三層,在第一層對10幀 (大概三分之一秒)圖像序列進行MxNx3xT的卷積(其中 MxN是圖像的分辨率,3是圖像的3個顏色通道,T取4,是參與計算的幀數,從而造成在時間軸上4個響應),在第二、3層上進行T=2的時間卷積,那麼在第3層包含了這10幀圖片的全部的時空信息。該網絡在不一樣時間上的同一層網絡參數是共享參數的。視頻

它的整體精度在相對單幀提升了2%左右,特別在運動豐富的視頻,如摔角、爬杆等強運動視頻類型中有較大幅度的提高,這從而也證實了特徵中運動信息對識別是有貢獻的。在實現時,這個網絡架構能夠加入多分辨的處理方法,能夠提升速度。圖片

3. 雙路CNN的識別方法ip

這個其實就是兩個獨立的神經網絡了,最後再把兩個模型的結果平均一下。一個就是普通的單幀的CNN,並且文章當中提到了,這個CNN是在ImageNet的數據上pre-train,而後在視頻數據上對最後一層進行調參。一個是CNN網絡,就是把連續幾幀的光流疊起來做爲CNN的輸入。 另外,它利用multi-task learning來克服數據量不足的問題。其實就是CNN的最後一層連到多個softmax的層上,對應不一樣的數據集,這樣就能夠在多個數據集上進行multi-task learning。get

4. 基於LSTM的識別方法

它的基本思想是用LSTM對幀的CNN最後一層的激活在時間軸上進行整合。這裏,它沒有用CNN全鏈接層後的最後特徵進行融合,是由於全鏈接層後的高層特徵進行池化已經丟失了空間特徵在時間軸上的信息。相對於方法2,一方面,它能夠對CNN特徵進行更長時間的融合,不對處理的幀數加以上限,從而能對更長時長的視頻進行表達;另外一方面,方法2沒有考慮同一次進網絡的幀的先後順序,而本網絡經過LSTM引入的記憶單元,能夠有效地表達幀的前後順序。

上圖中紅色是卷積網絡,灰色是LSTM單元,黃色是softmax分類器。LSTM把每一個連續幀的CNN最後一層卷積特徵做爲輸入,從左向右推動時間,從下到上經過5層LSTM,最上的softmax層會每一個時間點給出分類結果。一樣,該網絡在不一樣時間上的同一層網絡參數是共享參數的。在訓練時,視頻的分類結果在每幀都進行BP(back Propagation),而不是每一個clip進行BP。在BP時,後來的幀的梯度的權重會增大,由於在越日後,LSTM的內部狀態會含有更多的信息。

在實現時,這個網絡架構能夠加入光流特徵,可讓處理過程容忍對幀進行採樣,由於如每秒一幀的採樣已經丟失了幀間所隱含的運動信息,光流能夠做爲補償。

5.  3維卷積核(3D CNN)法

3D CNN 應用於一個視頻幀序列圖像集合,並非簡單地把圖像集合做爲多通道來看待輸出多個圖像(這種方式在卷積和池化後就丟失了時間域的信息,以下圖左), 而是讓卷積核擴展到時域,卷積在空域和時域同時進行,輸出仍然是有機的圖像集合(以下圖右)。

實現時,將視頻分紅多個包含16幀的片斷做爲網絡的輸入(維數爲3 × 16 × 128 × 171)。池化層的卷積核的尺寸是d x k x k, 第一個池化層d=1,是爲了保證時間域的信息不要過早地被融合,接下來的池化層的d=2。有所卷積層的卷積核大小爲3x3x3,相對其餘尺寸的卷積核,達到了精度最優,計算性能最佳。 網絡結構以下圖所示。這個是學習長度爲16幀(採樣後)視頻片斷的基礎網絡結構。對於一個完整的視頻,會被分割成互相覆蓋8幀的多個16幀的片斷,分別提取他們的fc6特徵,而後進行一個簡單平均得到一個4096維的向量做爲整個視頻的特徵。                                    

經過可視化最後一個卷積層對一個連續幀序列的特徵表達,能夠發現,在特徵開始着重表達了畫面的信息,在特徵的後面着重表達的是運動信息,即在運動處有相對顯著的特徵。以下圖。

和單幀圖特徵在視頻測試集上進行對比,3D CNN有更強的區分度

相關文章
相關標籤/搜索