Multimodal——Paper筆記：Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

時間 2021-01-02

原文原文鏈接

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web 關鍵字：BERT、遷移學習、預訓練文章簡介這篇文章中了今年ECCV（2020），還是spotlight，挺牛X的了。雖然還是吃的transformer的老本（自從出現了transformer，多模態領域就像找到了突破點一樣，各種使用transf

>>阅读原文<<