Identity-Aware Textual-Visual Matching with Latent Co-attention文章翻譯學習(ICCV)

原文鏈接:點擊打開鏈接 Abstract 文本 - 視覺匹配旨在測量句子描述和圖像之間的相似性。大多數現有方法在解決此問題時沒有有效利用身份級別註釋。在本文中,我們提出了一個用於文本 - 視覺匹配問題的身份感知兩階段框架。我們的stage-1 CNN-LSTM網絡學習將跨模態特徵嵌入到新的交叉模態交叉熵(CMCE)丟失中。第一階段網絡能夠有效地篩選容易出現錯誤的配對,併爲第二階段訓練提供初始訓練點
相關文章
相關標籤/搜索