FusionSeg_Learning to combine motion and appearance for fully automatic 論文翻譯

一、摘要 我們提出了一個端到端的學習框架,在視頻中分割一般對象。我們的方法是學習將外觀和運動信息結合起來,爲所有突出的物體生成像素級的分割掩碼。我們將該任務作爲一個結構化的預測問題,設計了一個雙流全卷積神經網絡,將運動和外觀融合在一個統一的框架中。由於缺乏像素級分段的大型視頻數據集,我們展示瞭如何將弱註釋的視頻與現有的圖像識別數據集一起進行訓練。通過對三種具有挑戰性的視頻分割基準的實驗,我們的方法
相關文章
相關標籤/搜索