One-Shot Video Object Segmentation論文筆記

摘要

本文處理了半監督視頻物體分割的問題,如給出第一幀的掩碼,在視頻中將這個物體從背景中分開。咱們展現了OSVOS,一個基於全卷積神經網絡的結構。這個結構在ImageNet進行預學習,對前景進行語義分割,最終利用一張標註的圖片來實現整個視頻序列中該物體的分割。全部幀都是獨立處理的,可是結果顯示連貫穩定。咱們在兩個有標註的視頻分割數據集中進行實驗,結果顯示OSVOS是fast and improves the state of the art。網絡

1. 簡介

深度網絡須要大量的訓練數據,這也是一個數據集方面的短板。本文研究對整個視頻進行分割,並且只須要一個已標註的訓練實例,如第一幀。
本文的貢獻:學習

  • 使CNN適應於給出特定物體的一個標註圖片的場景。咱們採用了一個在圖像識別上進行預訓練的CNN來進行視頻物體分割。而後在一系列視頻數據集上訓練。最後在測試階段進行微調。下圖是該方法的overview。
    clipboard.png測試

  • OSVOS獨立處理每一幀。也就是將視頻分割轉換成圖像分割。動做以訛傳訛的效果也很好,可是涉及到光流等研究領域,會產生更難的問題。對於時間穩定性的問題,本文中的深度學習方法提供了足夠準確的模型能夠產生穩定的結果,即便獨立的處理每張圖片。這樣作有一些優勢,能夠不按順序來處理視頻序列。在實際使用中,能夠用來檢測監控場景,鏡頭能夠發生突變。spa

  • OSVOS在速度和準確率上作了權衡。在實驗中,每幀處理181ms獲得71.5%的準確率,而每幀處理7.85s時能夠達到79.5%的準確率。其次,若是當前分割效果不夠好,用戶能夠標註更多的幀來feed OSVOS以取得更好的效果。實驗顯示若是序列中有兩幀標註圖片,準確率可達到84.6%,四張86.9%。
    本文采用FCN。在兩個數據集上進行了測試(DAVIS和Youtube-Objects)。處理DAVIS(480X854像素)一幀須要102ms。準確率上面已經提到了。視頻

2. 相關工做

3. One-Shot Deep Learning

若是要在一張圖片中檢測一個具體的物體,對於人來講,少許的信息也是足夠的,即便在外形、形狀、場景發生改變,也不難分辨。由於咱們有很強的先驗,首先,這是一個物體,而後這是一個特定的物體。本文的方法就是基於這個思想。
本文訓練FCN來進行前景和背景的分割。首先在大量數據進行訓練,區別出一個前景物體和其它,在測試階段,用少許數據迭代調整網絡來分割出咱們要檢測出的物體。blog

3.1 端到端可訓練前景網路FCN

基於VGG網絡,在準肯定位分割預測上作了修改。在微調部分將用於分類的全鏈接層移除,使用了image-to-image inference。VGG的網絡結構中5個stages 包含了一組ReLU層。在stage之間,池操做縮小了feature maps的規模。
基於二分類的cross-entropy loss定義以下:
clipboard.png
其中clipboard.png,Y_是negative labeled像素,Y+是positive labeled像素。這樣調整是爲了解決兩個分類的不均衡性。圖片

3.2 訓練細節

離線訓練:本文結果的基礎CNN是在ImageNet上預訓練的。若是不進一步訓練,這個網絡是不能直接用來作分割的。咱們把這個網絡稱爲「base network」。咱們進一步在DAVIS上訓練,學習如何將物體從背景中分割出來,包括他們經常使用的形態。而後用隨機梯度降低設置momentum 0.9作了50000次迭代。經過反射和放大來處理數據。學習率設置爲10^-8,逐漸減少。在離線訓練後,網絡學習如何分割前景和背景。咱們將這個網絡稱爲「parent network」。
在線訓練/測試:下面給定第一幀的分割,在視頻中分割出該特定物體。咱們經過進一步訓練特定物體的image/ground truth對來訓練parent network。而後使用新的權重對圖像序列測試。時間上主要兩個,一個是fine-tuning時間,一個是分割全部幀的時間。以前咱們在質量和時間上有作trade-off,學習圖像對的次數越多,獲得的結果越好。ip

3.3 獲取輪廓

對於分類來講,一張圖片中只要出現該物體,無論物體的位置,結果都是同樣的。可是本文須要精準定位,因而須要獲取物體的輪廓。本文提出的方法是學習輪廓,提出了一個CNN用於訓練檢測物體輪廓。下圖中,(1)是主要的前景提取網絡,(2)用來檢測圖像中的全部輪廓。咱們在兩個分支中使用相同的結構,可是訓練時的loss不一樣。因爲提取輪廓須要很高的recall,所以在Pascal-context數據集上訓練。最後,用UCM(Ultra metric Contour map)計算超像素的輪廓,設置較低的閾值。而後獲得前景的掩碼,以後經過大多數投票(與前景掩碼的重合度超過50%)來肯定最後前景的分割。
clipboard.png深度學習

4. 實驗驗證

clipboard.png
數據集是DAVIS。J是區域重合判斷標準,F是輪廓重合判斷標準,T是時間穩定性。-BS是沒有獲取邊界,-PN是沒有在父網絡上預訓練,-OS是沒有學習第一幀。it

相關文章
相關標籤/搜索