視頻分割

主要的視頻分割算法分爲兩類:算法

  • OSVOS(one shot video object segmentation)每一幀單獨處理
  • MaskTrack考慮時序信息

 

    在MaskTrack中,首先使用圖像語義分割網絡(deeplabv2)獲得instance segmentation。但問題是:怎麼讓網絡知道哪個instance須要分割?MaskTrack 中提出引導式實體分割的思路,將前一幀的預測結果做爲掩膜額外輸入給網絡。輸入包含四個通道RGB+Mask。Mask 是提供可能的預測目標,包含大概的位置和形狀信息。在此基礎上訓練pixel labeling convnet,能夠看作一個Mask Refinement。
網絡

 

論文的可行性:ide

  • 粗糙的Mask就ok
  • 不須要將視頻數據怎麼訓練數據,由於輸入只須要多一個通道的Mask。做者經過對標註進行變換(deforming、coarsening)模擬前一幀Mask。其中affine transformations 和non-rigid deformations 模擬相鄰幀的運動變換,coarsening 用來模擬測試時前一幀的預測結果。

 

 本篇論文的另外一 個亮點是: on-line training的設計測試

         在測試時,使用online training的技巧(在最優的tracking方法中使用)。將第一幀的標註信息做爲額外的信息。在每一個特定的instance下從新finetuning網絡。ui

 

網絡的變形:spa

  • 能夠使用不一樣的標註數據(box annotation)
  • 使用optical flow 做爲guidance(epicflow with flow fields matches and convolutional boundaries)

 

 

 

Lucid Data Dreaming數據擴充設計

相關文章
相關標籤/搜索