【論文閱讀】 VL-BERT: Pre-training of generic visual-linguistic representations

時間 2021-01-12

原文原文鏈接

利用BERT聯合學習視覺和語言之間的信息。 Visual-Linguistic BERT的主幹是多模態Transformer attention 模塊，以視覺和語言嵌入特徵作爲輸入。在輸入中，每個元素要麼來自輸入句子的單詞，要麼來自輸入圖像的某個區域(RoI)，以及某些特殊元素[CLS]、[SEP]、[END]等用來消除不同的輸入格式的歧義。不同於BERT只將語言元素作爲輸入，VL-BERT將視