Face2Voice:人臉與聲音之間的跨模態識別與檢索

《Seeing Voices and Hearing Faces Cross-modal biometric matching》(2016CVPR) 這篇文章圍繞的一個核心任務是跨模態生物特徵識別,即給定臉部圖像或視頻,確定它對應於給定的音頻中的哪一個;或者給定聲音的音頻片段,確定它對應於兩個或多個面部圖像或視頻中的哪一個。文章中介紹了三種框架,分別對應三種不同的任務: 第一個static網絡用於
相關文章
相關標籤/搜索