[短]粗讀CVPR2019論文 Deep Multimodal Clustering for Unsupervised Audiovisual Learning

聲明:本文爲個人觀點,如有不同意見,希望評論區指出,共同進步。 文章核心思想: 作者首先給了一個問題,簡單概括就是一段話。 給你一個圖像和一個音頻,你要怎麼把無聲圖像中的對象和對應音頻中發出的聲音給匹配起來,在一個音頻中,聲音往往是多個聲源共同發出的,如何才能把聲源中的K個發聲源和圖像中的K個發聲源頭給他組合到一起呢?就比如一個視頻,一直一個畫面,有雞有鴨,但沒有聲音,這時候,給你一個音頻,有雞叫
相關文章
相關標籤/搜索