視覺理解論文系列(三)VL-BERT: PRE-TRAINING OF GENERIC VISUALLINGUISTIC REPRESENTATIONS

時間 2021-04-10

原文原文鏈接

背景這是微軟亞研院的工作，將純文本設定的bert擴展到visual-linguistic場景，從預訓練到fine-tune，可以用於多個下游任務。摘要作者提出了一個可預訓練的用於學習視覺-語言任務通用表徵的模型VL-BERT，VL-BERT以transformers爲主幹，可以同時接受V、L特徵作爲輸入。預訓練任務使用了包括visual-language數據集Conceptual Capti