Face2Voice：人臉與聲音之間的跨模態識別與檢索

時間 2021-01-04

原文原文鏈接

《Seeing Voices and Hearing Faces Cross-modal biometric matching》（2016CVPR）這篇文章圍繞的一個核心任務是跨模態生物特徵識別，即給定臉部圖像或視頻，確定它對應於給定的音頻中的哪一個；或者給定聲音的音頻片段，確定它對應於兩個或多個面部圖像或視頻中的哪一個。文章中介紹了三種框架，分別對應三種不同的任務：第一個static網絡用於

>>阅读原文<<