《VideoBERT: A Joint Model for Video and Language Representation Learning》

論文地址: https://arxiv.org/pdf/1904.01766.pdf 這是一篇將BERT結合video來學習跨模態表示的經典之作。該工作將video中提取出的特徵向量通過聚類的方法離散化,繼而在文本token的基礎上增加視覺token,一起學習視覺和文本信息。 1 方法 1.1 視頻文本數據處理(video and language processing) 針對video的處理,首
相關文章
相關標籤/搜索