視頻雲大賽|視頻目標分割,下一個視頻算法技術爆發點?

視頻雲大賽|視頻目標分割,下一個視頻算法技術爆發點?

近年來隨着智能移動終端和互聯網的快速發展,視頻數據呈現指數級增加。視頻目標分割擁有衆多的消費落地場景,特別是最近火爆的視頻會議、視頻直播、短視頻製做等場景中的應用極爲普遍,所以如何爲用戶打造更智能、更優質、更沉浸的體驗,實現對視頻中興趣對象的高精度自動分割,成爲了很是熱門的研究方向。由阿里雲視頻雲主辦的全球視頻雲創新大賽,在算法賽道重點攻克視頻目標分割方向,就此,咱們展開了解這項技術的發展、價值和關鍵要素。算法

做者|中間網絡

業界公認的技術難點

視頻目標分割(Video Object Segmentation,簡稱爲 VOS)旨在在整個輸入視頻序列中對目標對象實例進行高質量的分割,獲取目標對象像素級的蒙版,從而把目標從背景圖像中精細的分割出來。相比於目標跟蹤、檢測等限位框級任務(用矩形框將目標框選出來),VOS 具備像素級精度,更利於準肯定位目標以及勾勒目標邊緣細節。框架

視頻對象分割是計算機視覺領域的基本任務之一,也是業界公認的技術重點和難點,在視頻理解和編輯,高清視頻壓縮,人機交互以及自動駕駛等領域具備普遍的應用價值和落地需求。同時,視頻目標的分割結果也是視頻內容生產二次創做的重要素材,可以賦能內容生產者,提高內容生產效率。ide

視頻雲大賽|視頻目標分割,下一個視頻算法技術爆發點?

視頻目標分割技術在自動駕駛領域的應用 圖片來源:(CVPR), 2021。性能

圖像分割算法有較長的研究歷史,從最先的閾值化、直方圖、區域生長、k - 均值聚類、分水嶺方法,到更先進的主動輪廓模型、Graph-cuts、條件隨機場和馬爾可夫隨機場等方法。學習

近年來隨着深度學習的快速發展,基於深度神經網絡產生了一批新一代的分割模型,其性能得到了顯著提升,在流行的基準測試上一般都達到了最高的準確率。在視頻場景下,相比於單純地逐幀實現圖像分割,視頻目標分割依託於多幀間的連續性,能夠實現分割結果的高平滑、高精度。測試

從應用條件和場景的角度出發,視頻對象分割可分爲無監督(弱監督)VOS、半監督 VOS 和交互式 VOS阿里雲

半監督 VOS 依託視頻第一幀一個(多個)對象的真實分割蒙版,自動估算其他幀對象的細化蒙版。spa

交互式 VOS 依靠用戶的簡單互動,如塗鴉或點擊,提供待分割目標的大體位置,進而估算、細化目標的精確蒙版。設計

無監督 VOS 是全自動的視頻目標分割方法,最具挑戰性,僅依靠視頻輸入(單目 RGB),分割視頻中顯著目標的精細蒙版,相比於半監督和交互式,無監督 VOS 須要定義顯著性目標並提供額外的顯著性物體檢測模塊。然而 VOS 算法除了要解決圖像分割面臨的視角變化、光照變化、目標尺度變化、遮擋等難點以外,視頻場景下複雜的背景干擾、目標物體運動模糊以及目標周圍複雜的附屬物等,都對 VOS 算法提出了巨大的挑戰。同時,視頻數據處理數據量一般是幾十倍於圖像數據,所以 VOS 算法的計算量和複雜度也成了限制 VOS 可否成功應用的重要衡量標準,隨着視頻目標分割技術熱度的持續增長,越來愈多的視頻算法模型衍生出來。

視頻雲大賽|視頻目標分割,下一個視頻算法技術爆發點?

圖片來自論文 Video Object Segmentation with Re-identification,CVPR 2017

算法模型加速創新

近年來視頻目標分割算法有基於第一幀的 mask 進行傳播的,也有基於檢測在線學習的,STM[1] 的出現融合了上述兩種思想的優勢,首次將 Memory Network 引入 VOS 領域,引伸爲一個 space-time 的 memory network,並實現了較好的分割準確率以及較快的速度。在業界著名的 DAVIS 2020 大賽中,不少優秀的模型都是根據 STM 進行改造的,可見其具備很棒的指導意義和研究價值。下面,咱們就以 DAVIS 2020 大賽的優勝方案爲例,介紹幾種具備表明性的算法。

阿里達摩院提出的算法 [2] 是 DAVIS-20 半監督 VOS 賽道的冠軍方案,它基於 STM,以 ResNeST101 爲 backbone,增長空間約束模塊(Spatial Constraint Module)以確保相鄰幀之間的空間一致性,消除外觀混淆,消除由同一類別的類似實例引發的錯誤預測,並在 segmentation head 中增長了 ASPP (Atrous Spatial Pyramid Pooling) 模塊來解決尺度變化(scale variability)的問題,同時使用了額外的 refinement module 來提高分割圖像邊緣的精細度。

CFBI[3] 提出了一種前背景整合的協做式視頻目標分割算法,也是一種基於匹配的半監督分割算法,與以前的方法只考慮前景目標特徵學習不一樣的是,CFBI 開創性的同時、同等地處理前景和背景信息,不只提取當前幀的嵌入特徵並與參考幀中的前景目標進行匹配,並且還對背景區域進行匹配以緩解背景混亂,從而獲得更好的分割結果。CFBI 進一步拓展了在多尺度特徵上進行匹配,在 DAVIS2020 半監督分割賽道上與達摩院的算法性能接近,得到第 2 名。

Garg 等人提出的框架 [4] 是 DAVIS-20 無監督 VOS 賽道的冠軍方案,主要結合了 Proposal 和 STM,首先利用 Mask-RCNN 生成第一幀中可能的目標分割 mask(proposal),接着利用 STM 將第一幀的 Proposal 順序傳導到其他幀,再將 STM 預測的 mask(帶 ID)與第一幀的 Proposal 創建匹配關係,最後篩選出最準確的 mask 做爲最終的分割結果。阿里提出的無監督 VOS 方案 法 [5] 與 [4] 同樣利用了 Proposal 和 STM 來實現整個算法,主要是利用跟蹤來融合不一樣的 proposal,在無監督 VOS 賽道中得到亞軍。目前主流的無監督 VOS 跟上述兩個工做的思路基本一致。

更精、更快、更融合

目前對視頻目標分割的研究主要分爲兩方面,一是如何利用視頻幀之間的時序信息提升圖像分割的精度;二是如何利用視頻幀之間的類似性肯定關鍵幀,減小計算量,提高模型的運行速度。

在提高分割精度方面通常是設計新的模塊,將新模塊與現有的 CNNs 結合;在減小計算量方面,利用幀序列的低層特徵相關性選擇關鍵幀,同時減小操做時間。具體來講,視頻目標分割這幾年的發展表明了科研領域對 sequential data 的認識有了很大的進展,不管是視頻數據仍是文本數據本質上都是 sequential data,在 NLP 領域經過 attention 機制對全局信息進行建模以後,這種思路在視頻領域也逐漸成爲了一種共識。

因此,一個很重要的方向是多領域的融合,像視頻目標跟蹤(VOT)、檢測(VOD)、ReID、視頻理解以及更大的 meta learning、video representation learning、few-shot learning、metric learning 跟視頻分割都是高度相關的。

第二個是找到一種統一的解決方案,好比用一個網絡解決無監督和半監督 VOS,甚至是解決視頻目標跟蹤(VOT)、視頻目標檢測(VOD)和多目標跟蹤(MOT)等問題。

第三個是探索一些更加高效的訓練範式,視頻數據的標註很是困難且成本很高,結合半監督或者無監督的學習方法,必定會爲視頻目標分割帶來比較大的變革。

參考文獻

[1] Oh S W, Lee J Y, Xu N, et al. Video object segmentation using space-time memory networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9226-9235.

[2] Zhang P, Hu L, Zhang B, et al. Spatial Consistent Memory Network for Semi-supervised Video Object Segmentation[C]//CVPR Workshops. 2020, 6.

[3] Yang Z, Wei Y, Yang Y. Collaborative video object segmentation by foreground-background integration[C]//European Conference on Computer Vision. Springer, Cham, 2020: 332-348.

[4] Garg S, Goel V, Kumar S. Unsupervised Video Object Segmentation using Online Mask Selection and Space-time Memory Networks[J].

[5] Zhou T, Wang W, Yao Y, et al. Target-Aware Adaptive Tracking for Unsupervised Video Object Segmentation[C]//The DAVIS Challenge on Video Object Segmentation on CVPR Workshop. 2020.


視頻雲大賽正在火熱報名中

掃碼或點擊下方連接,一塊兒驅動下一代浪潮!
https://tianchi.aliyun.com/specials/promotion/videostreamingcloud_2021
視頻雲大賽|視頻目標分割,下一個視頻算法技術爆發點?

相關文章
相關標籤/搜索