雙流網絡

簡介

雙流CNN經過效仿人體視覺過程,對視頻信息理解,在處理視頻圖像中的環境空間信息的基礎上,對視頻幀序列中的時序信息進行理解,爲了更好地對這些信息進行理解,雙流卷積神經網絡將異常行爲分類任務分爲兩個不一樣的部分。單獨的視頻單幀做爲表述空間信息的載體,其中包含環境、視頻中的物體等空間信息,稱爲空間信息網絡;另外,光流信息做爲時序信息的載體輸入到另一個卷積神經網絡中,用來理解動做的動態特徵,稱爲時間信息網絡,爲了得到比較好的異常行爲分類效果,咱們選用卷積神經網絡對得到的數據樣本進行特徵提取和分類,咱們將獲得的單幀彩色圖像與單幀光流圖像以及疊加後的光流圖像做爲網絡輸入,分別對圖像進行分類後,再對不一樣模型獲得的結果進行融合。雙流卷積神經網絡結構以下圖所示:網絡

               

網絡的具體結構

深度學習的效果好壞,很大程度上取決於網絡的結構,目前深度學習的浪潮也催生了不少應用於不一樣任務的優秀網絡結構,隨着研究的深刻和網絡結構的加深,不一樣結構得出的效果也證明,隨着網絡層次結構的合理加深,網絡的效果也有相應的提高。原始雙流CNN的時空信息結構使用的是中等規模的卷積神經網絡CNN_M網絡結構。其網絡結構以下圖所示:學習

               

CNN_M的結構設計基本上和AlexNet是同一種思路,包括5層卷積層和3層全鏈接層,網絡的輸入圖像尺寸被固定在224×224。與
AlexNet相比,CNN_M包含更多的卷積濾波器。第一層卷積層的卷積核尺寸縮小爲7×7,卷積步長減少爲2,其餘層次的參數都與
AlexNet相同。經過增長濾波器的數量,減少濾波器的尺寸和步長,CNN_M能夠更好地發現和保留原始輸入圖像的細節信息,所以,CNN_M學習到的濾波器較以前的網絡結構有更好的魯棒性和更高的準確率。CNN_M在ILSVRC-2014物體識別任務上得到了
13.5%的top 5錯誤率,較以前的網絡模型有大幅度的減小。
 spa


訓練

神經網絡訓練任務中一個較爲重要的過程就是如何對各個神經元進行權重的初始化。神經元初始權重的選擇將直接影響到網絡的收斂速度以及訓練效果,如何選擇一種合適的初始化方式也成爲了咱們須要解決的問題。經常使用的初始化方法包括全0全1初始化、高斯隨機初始化、標準方差初始化等,可是效果每每通常。在實際應用中,因爲數據集的大小有限,迭代的次數過少,容易形成網絡的過擬合或者網絡不收斂,這樣獲得的網絡效果一般不好,所以,一般不會直接訓練卷積神經網絡,而是使用遷移學習的方法對預訓練好的網絡模型在不一樣的數據集上進行微調,從而得到更好的效果。
 
若是選擇目標分類任務場景類似的大規模數據集來進行預訓練,因爲新任務的數據量較小,容易形成過擬合。所以,選取ImageNet ILSVRC-2012物體分類數據集對網絡進行預訓練,而後再在動做分類數據集上進行微調。對於空間信息,直接使用RGB單幀圖像進行訓練和預測,預訓練數據集和動做視頻數據集的模式相差很少,但對於時序信息的光流特徵,光流場的模式與普通RGB圖像有所差別,因此對光流圖像進行上一節中所述的處理,將光流矢量投影到0到255的區間內,用彩色圖像的形式對光流矢量圖進行表示。在以後的實驗中,發現經過RGB圖像預訓練的模型對光流圖像的訓練也一樣適用。.net

另外,因爲在ImageNet上預訓練了模型,須要調小模型訓練初始的學習率,並根據訓練的迭代次數對學習率實時進行調整,隨着迭代次數的增多,減少學習率。最終獲得在動做數據集上訓練好的網絡模型,而且能夠根據具體的應用場景以及數據集模式對模型加以調整,進行遷移學習。設計

本文同步分享在 博客「於小勇」(CSDN)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。視頻

相關文章
相關標籤/搜索