Multimodal——Paper筆記:Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web 關鍵字:BERT、遷移學習、預訓練 文章簡介 這篇文章中了今年ECCV(2020),還是spotlight,挺牛X的了。雖然還是吃的transformer的老本(自從出現了transformer,多模態領域就像找到了突破點一樣,各種使用transf
相關文章
相關標籤/搜索