【北大&微軟】用於視頻目標檢測的記憶增強的全局-局部聚合

時間 2021-01-17

原文原文鏈接

關注上方「深度學習技術前沿」，選擇「星標公衆號」，資源乾貨，第一時間送達！北大&MSRA，入選 CVPR 2020，ImageNet VID SOTA 摘要：人類如何識別一段視頻中的目標呢？由於單幀圖像的質量下降，人們可能很難僅利用一幅圖像中的信息來識別這一幀中被遮擋的目標。我們認爲，人類識別視頻中的目標有兩條重要線索：全局語義信息和局部定位信息。近年來，很多方法都採用自注意機制來增強關鍵幀的