【論文閱讀】 VL-BERT: Pre-training of generic visual-linguistic representations

利用BERT聯合學習視覺和語言之間的信息。 Visual-Linguistic BERT的主幹是多模態Transformer attention 模塊,以視覺和語言嵌入特徵作爲輸入。在輸入中,每個元素要麼來自輸入句子的單詞,要麼來自輸入圖像的某個區域(RoI),以及某些特殊元素[CLS]、[SEP]、[END]等用來消除不同的輸入格式的歧義。 不同於BERT只將語言元素作爲輸入,VL-BERT將視
相關文章
相關標籤/搜索