如何在視頻裏任意摳圖？阿里工程師作到了！

時間 2019-11-24

原文原文鏈接

阿里妹導讀：如今的咱們在手機上花費了愈來愈多的時間，其中，視頻又格外地吸引咱們的注意力。有不少好玩的視頻，須要把前景物體從視頻中分割出來，這須要花費創做者99%以上的時間。今天，阿里資深算法專家任海兵將告訴：阿里巴巴關於視頻物體分割算法的三個方向與最新應用，但願對喜歡視頻創做的你有所幫助。算法

視頻物體分割（Video Object Segmentation，簡稱 VOS )，顧名思義就是從視頻全部圖像中把感興趣的物體區域完整地分割出來。爲了方便你們的理解。ide

視頻物體分割結果是進行內容二次創做的重要素材。例如目前火爆的「裸眼3D視頻」，基於視頻中主要物體與觀衆之間的距離，利用蒙皮遮擋的變化產生3D效果。其核心點是將前景物體從視頻中分割出來，這部分會花費創做者99%以上的時間。學習

所以，對於優酷這樣的視頻類網站，視頻物體分割是很是有價值的算法，可以賦能內容生產者，提高內容生產效率。特別是交互式視頻物體分割算法，能利用用戶少許交互，逐步提升視頻物體分割正確率，提高用戶觀感體驗。這是任何無監督視頻物體分割算法所不能達到的。網站

目前，CV 學術界在視頻物體分割方面的研究主要分爲三個方向：spa

半監督視頻物體分割 (Semi-supervised video object segmentation)
交互式視頻物體分割(Interactive video object segmentation)
無監督視頻物體分割（Un-supervised video object segmentation）

這三個研究方向對應於 Davis Challenge 2019 on Video Object Segmentation [1]中的三個賽道。其中，學術界更傾向於研究半監督視頻物體分割，由於這是視頻物體分割的最基礎算法，也是比較純粹的一個研究點。接下來，我首選介紹視頻物體分割的三個研究方向，而後結合阿里文娛摩酷實驗室的探索，分享在視頻領域的最新應用。3d

1、半監督視頻物體分割

半監督視頻物體分割，又稱爲單同樣本視頻物體分割(one-shot video object segmentation, 簡稱 OSVOS)。在半監督視頻物體分割中，給定用戶感興趣物體在視頻第一幀圖片上的分割區域，算法來獲取在後續幀上的物體分割區域。物體能夠是一個，也能夠是多個。在視頻中，存在物體和背景運動變化、光照變化、物體旋轉變化、遮擋等，所以半監督視頻物體分割算法研究的重點是算法如何自適應獲取變化的物體表觀信息。一個示例以下圖所示：視頻

圖1. 半監督視頻物體分割示例blog

在圖1中，第一行爲序列的 RGB 圖片，第二行爲感興趣物體區域。其中（a）爲視頻第一幀圖像，駱駝區域是給定物體的 ground-truth。（b）(c)和 (d)是後續的第20、40和60幀，後續的圖像只有 RGB 圖片，須要算法去估計物體的區域。該示例的難點是：圖片

前景背景顏色很是類似；
隨着目標駱駝的運動，背景中出現一個新的駱駝，須要分割出這兩個不一樣的駱駝區域。

目前半監督視頻物體分割算法分爲兩大類：有在線學習、無在線學習。ci

基於在線學習的算法根據第一幀物體的 ground-truth，利用 one-shot learning 的策略來 fine-tune 分割模型。經典的在線學習算法包括 Lucid datadreaming[2]，OSVOS[3]，PreMVOS[4]等。在線學習算法針對每一個物體單獨訓練模型，能夠達到很高的分割正確率。可是在線學習自己是深度學習模型的 fine-tuning，須要耗費大量的計算時間。在2019年以前，在線學習算法是主流。今年出現了很多無在線學習的算法，它的模型是事先訓練好的，不須要針對樣本進行 fine-tune，具備更好的時效性，例如 CVPR2019 的 FEELVOS[5]，Space-time memory network[6]等。

半監督視頻物體分割的最主要的結果評估標準是平均 Jaccard 和 F-measurement.平均Jaccard 值是全部物體在全部幀上分割精度 Jaccard 的均值。F-measurement 爲分割區域邊緣的準確度。半監督視頻物體分割因爲其須要第一幀物體區域的 ground-truth，所以沒法直接應用於實際應用。但它是交互式和無監督視頻物體分割算法的核心組成部分。

2、交互式視頻物體分割

交互式視頻物體分割是從去年開始興起的、更貼近實用的視頻物體分割方法。在交互式視頻物體分割中，輸入不是第一幀物體的 ground-truth，而是視頻任意一幀中物體的用戶交互信息。交互信息能夠是物體 boundingbox、物體區域的劃線（scribble)、外邊緣的極值點等。

基本流程以下圖所示：

圖2.交互式視頻物體分割流程

交互式視頻物體分割一般包括如下5個步驟：

用戶輸入交互信息，標記感興趣物體，例如物體的 bounding box，scribble 信息、邊緣點等；
根據用戶輸入的交互信息，利用交互式圖像物體分割算法分割出物體在該幀圖像上的物體區域；
根據前一幀物體區域，利用半監督視頻物體分割算法向視頻其餘幀圖像逐幀傳遞，進行物體分割，獲得全部幀圖像上物體區域。而後，用戶檢查分割結果，在分割較差幀上，給出新的交互信息；
算法根據新的交互信息，修改該幀圖像上的分割結果；
重複步驟3和4，直到視頻物體分割結果讓用戶滿意。

交互式視頻物體分割不是一個單一算法，並且多種算法有機融合的解決方案，包括交互式圖像物體分割、半監督視頻物體分割、交互式視頻物體區域傳遞算法等。其主要評估方法爲 Davis Challenge on Video Object Segmentation 中提出的 Jaccard&F-measurement@60s (簡稱 J&F@60s )和 Area Under Curve（簡稱 AUC)。Davis競賽提出限定8次用戶交互，創建準確度隨時間的變化曲線圖，曲線下方區域的面積就是 AUC，t=60s 時刻曲線插值就是 J&F@60s。下圖爲一個 J&F 隨時間變化曲線圖。

圖3. 交互式分割結果 J&F曲線示例

從評估指標能夠看出，交互式視頻物體分割強調分割算法的時效性，不能讓用戶長時間等待。因此，在交互式視頻物體分割中通常不採用基於在線學習方法的半監督視頻物體分割算法。目前尚未交互式視頻物體分割的開源代碼。可是交互式視頻物體分割算法對工業界有很是重要的意義，其緣由是：

1）半監督視頻物體分割須要物體第一幀的 ground-truth，實用中獲取比較麻煩。而交互式視頻物體分割只須要用戶的簡單交互，很是容易達到；
2）交互式視頻物體分割能夠經過屢次交互，達到很是高的分割正確率。高精度的分割結果可以提供更好的用戶體驗，纔是用戶須要的結果。

3、無監督視頻物體分割

無監督視頻物體分割是全自動的視頻物體，除了 RGB 視頻，沒有其餘任何輸入。其目的是分割出視頻中顯著性的物體區域。在上述三個方向中，無監督視頻物體分割是最新的研究方向。

Davis 和 Youtube VOS 競賽今年第一次出現無監督賽道。從算法層面上說，無監督視頻物體分割須要增長顯著性物體檢測模塊，其餘核心算法沒有變化。

半監督和交互式視頻物體分割中，物體是事先指定的，不存在任何歧義。而在無監督視頻物體分割中，物體顯著性是主觀概念，不一樣人之間存在必定的歧義。所以，在 Davis VOS 中，要求參賽者總共提供 N 個物體的視頻分割結果（在 Davis Unsupervised VOS 2019 中，N=20)，與數據集 ground-truth 標記的 L 個顯著物體序列計算對應關係。對應上的物體和遺漏的物體參與計算 J&F 的均值。N 個物體中多餘的物體不作懲罰。

4、阿里文娛摩酷實驗室的研究現狀

目前不少半監督視頻物體分割算法在學術上有很好的創新，可是實用中效果不佳。咱們統計了今年 CVPR 的論文，在 Davis 2017 val數據集上，沒有一篇正會論文J&F>0.76。FEELVOS[5]、siamMask[7]等算法理論上有很好，實用中卻存在多種問題。交互式視頻物體分割更是沒有開源代碼。

因此，阿里文娛摩酷實驗室從2019年3月底開始從事半監督和交互式視頻物體分割算法的研究。

2019年5月，咱們完成一版基礎的半監督視頻物體分割算法和交互式視頻物體分割解決方案，並以此參加了 DAVIS Challenge on Video Object Segmentation 2019，在交互式視頻物體分割賽道得到第四名。

咱們提出的 VOS with robust tracking 策略[8]，能夠較大幅度的提升基礎算法的魯棒性。在 Davis 2017驗證集上，咱們交互式視頻物體分割算法 J&F@60s 準確率從3月底的0.353 提升到5月初的0.761。如今，咱們的半監督視頻物體分割算法也達到了J&F=0.763。能夠說，在這個集合上咱們的結果已經接近業界一流水準。

5、阿里文娛摩酷實驗室的後續計劃

目前，咱們在繼續探索複雜場景下的算法應用，這些複雜場景包括小物體、前景背景高度類似、物體運動速度很快或表觀變化很快、物體遮擋嚴重等。後續，咱們計劃在online learning、space-time network、region proposal and verification 等策略上發力，以提升視頻物體分割算法在複雜場景下的分割精度。

另外，圖像物體分割算法、多目標物體跟蹤算法也是視頻物體分割算法的重要基礎，咱們也將在這些方面持續提高精度。

原文連接本文爲雲棲社區原創內容，未經容許不得轉載。