視覺理解論文系列(三)VL-BERT: PRE-TRAINING OF GENERIC VISUALLINGUISTIC REPRESENTATIONS

背景 這是微軟亞研院的工作,將純文本設定的bert擴展到visual-linguistic場景,從預訓練到fine-tune,可以用於多個下游任務。 摘要 作者提出了一個可預訓練的用於學習視覺-語言任務通用表徵的模型VL-BERT,VL-BERT以transformers爲主幹,可以同時接受V、L特徵作爲輸入。預訓練任務使用了包括visual-language數據集Conceptual Capti
相關文章
相關標籤/搜索