視覺-語言雙流BERT模型之VilBERT學習筆記

繼 2018 年穀歌推出BERT 模型獲得巨大成功之後,業界把BERT的思想遷移到視覺、視頻任務中的例子越來越多,出現了很多融合的BERT模型。其中,ViLBERT模型是爲視覺-語言任務訓練非任務專用的視覺語言表徵的BERT融合模型。最近,在做文本-視頻語義相關性匹配,調研、學習了這篇文章,記錄下來學習的筆記,方便後面回顧,溫故而知新。 論文作者:Jiasen Lu, Dhruv Batra, D
相關文章
相關標籤/搜索