《VideoBERT: A Joint Model for Video and Language Representation Learning》

時間 2020-12-30

原文原文鏈接

論文地址： https://arxiv.org/pdf/1904.01766.pdf 這是一篇將BERT結合video來學習跨模態表示的經典之作。該工作將video中提取出的特徵向量通過聚類的方法離散化，繼而在文本token的基礎上增加視覺token，一起學習視覺和文本信息。 1 方法 1.1 視頻文本數據處理（video and language processing）針對video的處理，首

>>阅读原文<<