主要的視頻分割算法分爲兩類:算法
在MaskTrack中,首先使用圖像語義分割網絡(deeplabv2)獲得instance segmentation。但問題是:怎麼讓網絡知道哪個instance須要分割?MaskTrack 中提出引導式實體分割的思路,將前一幀的預測結果做爲掩膜額外輸入給網絡。輸入包含四個通道RGB+Mask。Mask 是提供可能的預測目標,包含大概的位置和形狀信息。在此基礎上訓練pixel labeling convnet,能夠看作一個Mask Refinement。
網絡
論文的可行性:ide
本篇論文的另外一 個亮點是: on-line training的設計測試
在測試時,使用online training的技巧(在最優的tracking方法中使用)。將第一幀的標註信息做爲額外的信息。在每一個特定的instance下從新finetuning網絡。ui
網絡的變形:spa
Lucid Data Dreaming數據擴充設計