刷新五項SOTA,百度ActBERT:基於動作和局部物體視頻文本特徵模型

    全球計算機視覺頂會 CVPR 2020 上,百度共計有 22 篇論文被接收。這篇 Oral 論文中,百度提出了 ActBERT,該模型可以學習敘述性視頻進行無監督視頻文本關係,並提出糾纏編碼器對局部區域、全局動作與語言文字進行編碼。最終在 5 項相關測評任務上取得了 SOTA 結果。 ActBERT 在下游視頻和語言任務上,即文本視頻片段檢索、視頻描述生成、視頻問答、動作步驟定位等任務上明
相關文章
相關標籤/搜索