閱讀筆記 Modality-specific and shared generative adversarial network for cross-modal retrieval

這一篇論文講的是使用多模態來進行圖片的檢索, 通過文字檢索出最好的圖片,模型結構如下: 文章提出兩個特徵概念 modality-specific 模態獨立特徵 modality-shared 模態分享特徵,也可以理解爲共同特徵 文章採用對抗訓練框架, 在生成模型處: 使用3個loss 進行訓練: semantic discrimination loss 用於保證語義的區分能力 ,要求模型提取的特徵
相關文章
相關標籤/搜索