SlowFast Networks for Video Recognition

題目:《SlowFast Networks for Video Recognition》

鏈接:https://arxiv.org/pdf/1812.03982.pdf

代碼鏈接:https://github.com/r1ch88/SlowFastNetworks

1、文章摘要翻譯

我們提出了用於視頻識別的SlowFast 網絡。我們的模型包括:(i)一條Slow路徑,以低幀速率運行,以捕獲空間語義;(i i)一條Fast路徑,以高幀速率運行,以精細的時間分辨率捕獲運動。Fast通道可以通過減少通道容量而變得非常輕量,但可以學習有用的時間信息用於視頻識別。我們的模型在視頻動作分類和檢測方面都取得了較好的性能,我們的SlowFast 的概念對性能有很大的改進,並在Kinetics, Charades 和AVA等基準上取得了最好的效果。

2、論文的靈感來源

觀察發現,視頻不同於圖像(圖像各向同性,所有方向都是等可能的,可以對稱處理兩個空間維度x和y),視頻中所有時空方向的可能性並不相同,慢動作比快動作更可能發生(事實上,我們所看到的世界大部分在某一時刻都處於靜止狀態),我們可以分解網絡結構來分別處理空間信息和時間事件。

空間範疇的語義演化緩慢,比如揮手不會改變「手」的類別,一個人從步行轉爲跑步,也總是處於「人」的類別。因此,對分類語義(以及它們的顏色、紋理、光照等)的識別可以相對緩慢地刷新。但對於正在執行的動作可以比其主體身份更快地發展,例如拍手,揮手,搖晃,行走或跳躍。可以期望使用快速刷新幀(高時間分辨率)來有效地模擬可能快速變化的運動。

基於上述的觀察,提出了一個視頻識別的雙路徑SlowFast 模型。根據上述描述,slow路徑顯然是爲了捕獲空間語義信息,並且顧名思義,該路徑以較低的幀速率和較慢的刷新速度運行。fast路徑負責捕捉快速變化的運動,以快速刷新速度和高時間分辨率運行。儘管這條路徑具有很高的時間速率,但它非常輕,約佔總計算量的20%。這是由於該路徑有較少的通道和較弱的能力來處理空間信息,因爲空間信息可以由slow路徑提供。這兩條path是由橫向連接融合。

fast路徑由於其輕量性,不需要時間池化操作(因爲它可以在所有中間層的高幀速率下運行,並保持時間準確性)。slow路徑由於時間速率較慢,更加關注空間語義。通過以不同的時間速率處理原始視頻,這兩種途徑在視頻建模方面擁有自己的專業知識(fast掌握時間信息,slow掌握空間信息)。

two-stream模型也是雙流設計,但它沒有探索不同時間速度的潛力,而這是我們方法中的一個關鍵概念。此外,two-stream方法對兩個流採用相同的主幹結構,而我們的快速路徑更輕。我們的方法不計算光流,因此,我們的模型是從原始數據端到端學習的。在我們的實驗中,我們觀察到SlowFast 網絡更有效。我們對Kinetics 行爲分類的綜合消融實驗證明了Slowfast的效果。重要的是,Slowfast Networks在四個數據集(Kinetics400 、Kinetics600 、AVA、Charades )上都實現了最高的水準。

3. SlowFast網絡介紹

SlowFast網絡可以被描述爲以兩種不同幀速率運行的單流體系結構,有一條Slow的道路和Fast通道,通過橫向連接至SlowFast網絡。如下圖1所示。

可以看出,fast路徑的時間維度分辨率和通道數分別是slow路徑的α倍和β倍

3.1. Slow pathway介紹

Slow 路徑可以是任何卷積模型,例如時空殘差網絡,C3D,I3D,Non-local網絡等。Slow 路徑的關鍵概念是輸入幀上的大時間跨度τ(這裏的"大"是指時間維度的步長較fast路徑更長些),即它只處理τ幀中的一個。我們研究的一個典型的τ值是16。slow路徑採樣後的幀數表示爲t,則原始剪輯長度爲t×τ幀(因爲每τ幀採樣一幀)。

3.2. Fast pathway介紹

fast路徑與slow路徑平行,它是另一個具有以下特性的卷積模型。

(1)High frame rate.

還記得摘要裏提過「fast路徑以精細的時間分辨率捕獲運動」,"精細的時間分辨率"指的是fast路徑在時間維度的步長較slow路徑短一些,即採樣密度大一些,還記得slow路徑是每τ幀採樣一幀(設置τ等於16),fast路徑採樣更快,以τ/α的步幅採樣,其中α>1是快速和慢速通道之間的幀速率比,因此fast路徑採樣密度是slow路徑的α倍。一個典型值是α=8,也就是說fast路徑每2幀採樣一幀。這兩個路徑在同一個原始片段上運行,在我們的實驗中,α的存在是SlowFast概念的關鍵(如圖1中的時間軸對比)。它明確地表明,這兩個路徑在不同的時間速度下工作。

(2)High temporal resolution features.

我們的快速通道不僅具有高輸入分辨率,而且在整個網絡層次上追求高分辨率特徵。在我們的實例中,我們在整個快速路徑中不使用時間降採樣層(既不使用時間池化也不使用時間步卷積),直到分類前的全局池化層。因此,我們的特徵張量總是沿時間維度具有αt幀(因爲slow路徑採樣後的幀數表示爲t,fast路徑採樣密度是slow路徑的α倍,故爲αt幀),儘可能保持時間準確度。

(3)Low channel capacity.

如摘要所言「Fast通道可以通過減少通道容量而變得非常輕量」,如圖一所示,fast路徑的通道數是slow路徑的β倍(β<1),通常β= 1/8。這使得Fast途徑比Slow途徑更具計算效率。在我們的實例中,Fast路徑通常佔總計算的約20%。

低通道容量也可以被解釋爲表示空間語義的能力較弱。因爲fast路徑通道較少,因此它的空間建模能力應該低於slow路徑。模型的結果表明,在增強fast路徑的時間建模能力的同時,弱化fast路徑的空間建模能力是一種理想的折衷方法。在這種解釋的推動下,我們還探索了削弱fast通道中空間容量的不同方法,包括降低輸入空間分辨率和去除顏色信息。正如我們將通過實驗展示的那樣,這些版本都可以提供良好的準確性,這表明可以使具有較小空間容量的輕量級fast通道變得有益。

3.3. Lateral connections

slow路徑學習空間信息,fast路徑學習時間信息,和two-stream網絡的兩個分支一樣需要在預測前進行融合。我們通過橫向連接來實現這一點,橫向連接用於融合基於光流的雙流網絡[9,10]。在圖像對象檢測中,橫向連接(在目標檢測的特徵金字塔那篇文章提出,本文參考文獻的32)是一種融合不同層次空間分辨率和語義的常用技術。

與[9,32]相似,我們在每個「階段」的兩個路徑之間附加一個橫向連接(圖1)。特別是對於resnet[21],這些連接位於pool1、res2、res3和res4之後。這兩條通路具有不同的時間維度,因此橫向連接進行轉換以匹配它們(詳見第3.4)。我們使用單向連接將fast路徑的特徵融合到Slow通路中(圖1)。 我們已經嘗試了雙向融合,並發現了類似的結果。最後,對每個路徑的輸出執行全局平均池化。 然後將兩個合併的特徵向量連接爲完全連接的分類器層的輸入。

3.4. Instantiations

我們對SlowFast的想法是通用的,它可以用不同的backbones (例如,[42,44,21])和實現細節來實例化在本小節中,我們將描述網絡體系結構的實例。我們用t×s^2表示時空尺寸,其中t是時間長度,s是正方形空間高度和寬度。接下來將介紹詳細信息。

Slow pathway.表1中的slow路徑是從[9]修改的時間跨度3D ResNet。 它具有T = 4幀作爲網絡輸入,是從時間步幅τ= 16的64幀原始剪輯稀疏地採樣得到的。我們選擇不在這個實例中執行時間降採樣,因爲這樣做在步幅較大時是有害的。因爲實驗觀察發現在早期層中使用時間卷積會降低準確性。我們認爲這是因爲當物體快速移動且時間步幅大時,在時間感受野內幾乎沒有相關性,除非空間感受野足夠大。例如,對於快速運動的運動員,如果採樣步幅較長,得到的前後兩幀沒什麼相關性、

Fast pathway.表1顯示了α=8和β=1/8的快速途徑示例。它具有更高的時間分辨率(綠色,即多個幀畫面)和更低的通道容量(橙色)。快速通道在每個區塊都有非退化的時間卷積(時間步長大於1)。這是由於觀察到這條路徑具有很好的時間分辨率,以便時間卷積捕獲詳細的運動。此外,快速通道的設計沒有時間降採樣層。

Lateral connections.

我們的橫向連接從快速通道到慢速通道融合。它需要在融合前匹配特徵的大小。將慢速通路的特徵形狀表示爲{T,S^2,C},快速通路的特徵形狀爲{αT,S^2,βC}。 我們在橫向連接中嘗試以下轉換:

(i)通道時間:我們重塑並將{αT,S^2,βC}轉換爲{T,S^2,αβC},意味着我們將所有α幀打包到一幀的通道中。

(ii)時間步長採樣:我們只是對每個α幀中的一個進行採樣,因此{αT,S^2,βC}變爲{T,S^2,βC}

(iii)時間步長卷積:我們用2βC輸出通道和stride =α執行5×1^2內核的3D卷積。

橫向連接的輸出通過求和或連接融合到慢路徑中。

4. Experiments: Action Classification

5. Experiments: AVA Action Detection

6. Conclusion翻譯

時間軸是一個特殊的維度。本文研究了一種結構設計方案,該方案比較了沿該軸的速度。它實現了最先進的視頻動作分類和檢測精度。我們希望這種SlowFast的概念將促進對視頻識別的進一步研究