微軟新作,ImageBERT雖好,千萬級數據集纔是亮點

2020-02-03 17:51 導語:預訓練中的數據集的順序對性能有很大的影響 雷鋒網導語:本文作者提出了一種新的視覺語言預訓練模型ImageBERT,該模型基於Transformer架構,並對視覺-語言聯合嵌入進行建模。更爲重要的是,作者還從網絡上收集了一千萬規模的弱監督圖像-文本數據集LAIT,這也是當前所有視覺-語言數據集中最大的數據集。在這個數據集的加持下,ImageBERT 模型在MS
相關文章
相關標籤/搜索