閱讀筆記 Modality-specific and shared generative adversarial network for cross-modal retrieval

時間 2020-12-30

原文原文鏈接

這一篇論文講的是使用多模態來進行圖片的檢索，通過文字檢索出最好的圖片，模型結構如下：文章提出兩個特徵概念 modality-specific 模態獨立特徵 modality-shared 模態分享特徵，也可以理解爲共同特徵文章採用對抗訓練框架，在生成模型處：使用3個loss 進行訓練： semantic discrimination loss 用於保證語義的區分能力，要求模型提取的特徵