視覺-語言雙流BERT模型之VilBERT學習筆記

時間 2021-01-17

原文原文鏈接

繼 2018 年穀歌推出BERT 模型獲得巨大成功之後，業界把BERT的思想遷移到視覺、視頻任務中的例子越來越多，出現了很多融合的BERT模型。其中，ViLBERT模型是爲視覺-語言任務訓練非任務專用的視覺語言表徵的BERT融合模型。最近，在做文本-視頻語義相關性匹配，調研、學習了這篇文章，記錄下來學習的筆記，方便後面回顧，溫故而知新。論文作者：Jiasen Lu, Dhruv Batra, D

>>阅读原文<<