基於BERT的多模態應用:圖像,視頻如何通過BERT處理

基於BERT的多模態應用:圖像,視頻如何通過BERT處理 本次分享的是結合了預訓練的語言模型BERT和視覺方面的結合。分爲單流模型和雙流模型。單流模型指在訓練開始前融合多模態數據,雙流模型是先對多模態數據進行獨立編碼,在進行融合。 文本介紹的1-4模型爲單流模型,5-6爲雙流模型。 1. VideoBERT: A Joint Model for Video and Language Represe
相關文章
相關標籤/搜索