刷新五項SOTA,百度ActBERT:基於動作和局部物體視頻文本特徵模型

時間 2021-01-15

原文原文鏈接

全球計算機視覺頂會 CVPR 2020 上，百度共計有 22 篇論文被接收。這篇 Oral 論文中，百度提出了 ActBERT，該模型可以學習敘述性視頻進行無監督視頻文本關係，並提出糾纏編碼器對局部區域、全局動作與語言文字進行編碼。最終在 5 項相關測評任務上取得了 SOTA 結果。 ActBERT 在下游視頻和語言任務上，即文本視頻片段檢索、視頻描述生成、視頻問答、動作步驟定位等任務上明

>>阅读原文<<