多模態+Recorder︱多模態循環網絡的圖像文本互匹配

來源於公衆號:大數據與多模態計算 . 1.問題背景 圖像文本匹配,顧名思義,就是度量一幅圖像和一段文本的相似性,該技術是多個模式識別任務的核心算法。例如,在圖像文本跨模態檢索任務中,當給定查詢文本,需要依據圖像文本的相似性去檢索內容相似的圖像;在圖像描述生成任務中,給定一幅圖像,需要依據圖像內容檢索相似的文本,並以此作爲(或者進一步生成)圖像的文本描述;在圖像問答任務中,需要基於給定的文本問題查找
相關文章
相關標籤/搜索