Github | MelGAN 超快音頻合成源碼開源

點上方藍字計算機視覺聯盟獲取更多幹貨

在右上方 ··· 設爲星標 ,與你不見不散

編輯:Sophia
計算機視覺聯盟  報道  | 公衆號 CVLianMeng
轉載於 :https://github.com/descriptinc/melgan-neurips


推薦文章【點擊下面可直接跳轉】:

AI博士筆記系列推薦:


以前的工作已經發現,使用GAN生成相干的原始音頻波形具有挑戰性。在本文中,我們表明通過引入一組體系結構更改和簡單的訓練技術,可以可靠地訓練GAN以生成高質量的相干波形。主觀評估指標(平均意見得分,或MOS)顯示了所提出的方法對高質量的Mel譜圖反演的有效性。爲了建立所提出技術的通用性,我們在語音合成,音樂域翻譯和無條件音樂合成中顯示了模型的定性結果。我們通過消融研究評估模型的各個組成部分,並提出一套指導原則,以設計用於條件序列合成任務的通用鑑別器和發生器。我們的模型是非自迴歸的,完全卷積的,與競爭模型相比,參數要少得多,並且可以推廣到看不見的說話者進行梅爾譜圖反演。我們的pytorch實施在GTX 1080Ti GPU上的運行速度比實時快100倍以上,在CPU上的運行速度比實時快2倍以上,而沒有任何針對硬件的優化技巧。即將發佈帶有示例和隨附代碼的博客文章。


請訪問我們的網站獲取樣本。您可以嘗試使用MelGAN根據端到端語音合成管道創建的語音糾正應用程序。


如果您不參加NeurIPS 2019會議,請查看幻燈片以查看我們的海報。

640?wx_fmt=png



END

聲明:本文來源於Github

如有侵權,聯繫刪除

聯盟學術交流羣

掃碼添加聯盟小編,可與相關學者研究人員共同交流學習:目前開設有人工智能、機器學習、計算機視覺、自動駕駛(含SLAM)、Python、求職面經、綜合交流羣掃描添加CV聯盟微信拉你進羣,備註:CV聯盟  

640?wx_fmt=png

最新熱文薦讀


640?wx_fmt=png

點個在看支持一下吧640?wx_fmt=png640?wx_fmt=png