Identity-Aware Textual-Visual Matching with Latent Co-attention文章翻譯學習（ICCV）

時間 2021-01-17

原文原文鏈接

原文鏈接：點擊打開鏈接 Abstract 文本 - 視覺匹配旨在測量句子描述和圖像之間的相似性。大多數現有方法在解決此問題時沒有有效利用身份級別註釋。在本文中，我們提出了一個用於文本 - 視覺匹配問題的身份感知兩階段框架。我們的stage-1 CNN-LSTM網絡學習將跨模態特徵嵌入到新的交叉模態交叉熵（CMCE）丟失中。第一階段網絡能夠有效地篩選容易出現錯誤的配對，併爲第二階段訓練提供初始訓練點

>>阅读原文<<