【CVPR2020-中科院計算所】多模態GNN：在視覺信息和場景文字上聯合推理

時間 2021-01-15

原文原文鏈接

關注上方「深度學習技術前沿」，選擇「星標公衆號」，資源乾貨，第一時間送達！即使有可靠的OCR模型，要回答需要在圖片中閱讀文字的問題，也對現有模型構成了一個挑戰。其中最困難的是圖片中經常有罕見字，多義字，比如地名，產品名，球隊名。爲了克服這個困難，我們的模型利用了圖片中多個模態的豐富信息來推測圖片中文字的語義，例如酒瓶上顯眼位置的字樣很可能是酒名。有了這樣的直觀感受，我們設計了一個新的VQA

>>阅读原文<<