原論文標題:FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks
文章是對FlowNet的進一步改進,主要貢獻爲以下三個方面:算法
PS:光流的數據集都比較小,通常須要幾個數據集一塊兒train,故如何使用這些數據集是相當重要的。網絡
通過這些改進,FlowNet 2.0只比前做慢了一點,卻下降了50%的測試偏差。dom
1. 數據集調度性能
最初的FlowNet使用FlyingChairs數據集訓練,這個數據集只有二維平面上的運動。而FlyingThings3D是Chairs的增強版,包含了真實的3D運動和光照的影響,且object models的差別也較大。學習
做者做了以下設定:測試
得出的實驗結果以下圖,圖中的數字表明模型在Sintel數據集上的EPE,注意,Sintel是一個新的數據集,不包含在訓練數據中。spa
從實驗結果中能夠得出幾個結論:設計
2. Stacking Networksblog
傳統的光流算法都依賴於迭代過程。做者嘗試也使用多個模型stacking,逐步refine的手法來獲得更好的結果。首先,stack兩個模型。圖片
第一個網絡使用兩張圖片做爲輸入,第二個網絡使用兩張圖片以及第一個網絡預測出的光流場做爲輸入。
此外,做者嘗試了另外一種方法,如Figure 2所示,第二個網絡除了上述的三個輸入以外,又使用Image 2和Flow進行warp,這樣,第二個網絡就能夠集中學習warped image和Image 1的差異,這是一種增量學習的思想。注意,做者將warped image和Image 1的偏差圖也顯式地輸入給了第二個網絡。實驗結果如Table 2所示。須要說明的是,warp的過程是用雙線性插值,是可微的,故整個網絡能夠e2e訓練。
從表中能夠看出,(1)僅stacking模型而不使用wrap後的圖片在Chairs上有更好的結果,但在Sintel則否則;(2)Stacking with warping老是能提升結果;(3)e2e訓練時,在Net1以後加中間loss是比較好的;(4)產生最好結果的作法是固定Net1,只訓練Net2,固然,要加入warp操做。
出現這樣的結果是符合直覺的,若e2e訓練,參數量成倍增長,很容易overfitting,但分開train,參數量就沒有那麼大,能產生比較好的結果。
下面,做者嘗試堆疊多個不一樣模型,即FlowNetC和FlowNetS混合使用,綜合考慮速度和性能,CSS最爲合理。另外,做者做了一些實驗,嘗試共享stacking先後模型的參數,發現沒什麼提高。
3. Small Displacements
上文中所用到的數據集所包含的運動每每比較快,而真實數據集如UCF101,幀間的運動每每比較小,大多在1px左右。因此,基於Chairs,做者按照UCF101的位移直方圖構建了一個小位移數據集,稱之爲ChairsSDHom。
做者用FlowNet2-CSS網絡在小位移數據上進一步訓練。具體的,做者在Things3D和ChairsSDHom中分別採樣了一些數據,具體的採樣方法參見文章的補充材料,這裏我就不去看了。通過這一輪訓練,網絡對於小位移的效果有了提升,並且並無傷害大位移的效果。這個網絡命名爲FlowNet2-CSS-ft-sd。可是,對於subpixel motion(講道理我不知道這是指什麼,姑且理解爲小於1px的運動吧),噪聲仍然是個問題,做者猜想FlowNet的網絡結構仍是不適應這種運動。因此,做者對FlowNetS作了輕微的修改,第一層的步長2改成1,7*7改爲5*5,使得網絡可以更好地捕捉小位移,這個網絡結構稱爲FlowNet2-SD。
最後,做者又設計了一個小網絡來fuse FlowNet2-CSS-ft-sd以及FlowNet2-SD的結果,具體的結構沒有說的太清楚,有須要的話能夠去看代碼。總的來看,結構仍是很是複雜的,訓練過程也頗有講究,改進的餘地應該挺大的。
4. Experiments
這部分沒有太多好說的,總之就是各類SOTA了。值得一提的是,做者還用了Motion Segmentation和Action Recognition兩個任務來衡量光流的好壞,前者我瞭解不太多,後者就是用很常見的Two Stream模型,兩個任務都須要光流做爲輸入。最後的結論固然是以FlowNet2獲得的光流做爲輸入,效果最好嘍!此處再也不贅述。