[短]粗讀CVPR2019論文 Deep Multimodal Clustering for Unsupervised Audiovisual Learning

時間 2020-12-24

標籤機器學習简体版

原文原文鏈接

聲明：本文爲個人觀點，如有不同意見，希望評論區指出，共同進步。文章核心思想：作者首先給了一個問題，簡單概括就是一段話。給你一個圖像和一個音頻，你要怎麼把無聲圖像中的對象和對應音頻中發出的聲音給匹配起來，在一個音頻中，聲音往往是多個聲源共同發出的，如何才能把聲源中的K個發聲源和圖像中的K個發聲源頭給他組合到一起呢？就比如一個視頻，一直一個畫面，有雞有鴨，但沒有聲音，這時候，給你一個音頻，有雞叫

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。