點上方藍字計算機視覺聯盟獲取更多幹貨
在右上方 ··· 設爲星標 ★,與你不見不散
AI博士筆記系列推薦:
以前的工作已經發現,使用GAN生成相干的原始音頻波形具有挑戰性。在本文中,我們表明通過引入一組體系結構更改和簡單的訓練技術,可以可靠地訓練GAN以生成高質量的相干波形。主觀評估指標(平均意見得分,或MOS)顯示了所提出的方法對高質量的Mel譜圖反演的有效性。爲了建立所提出技術的通用性,我們在語音合成,音樂域翻譯和無條件音樂合成中顯示了模型的定性結果。我們通過消融研究評估模型的各個組成部分,並提出一套指導原則,以設計用於條件序列合成任務的通用鑑別器和發生器。我們的模型是非自迴歸的,完全卷積的,與競爭模型相比,參數要少得多,並且可以推廣到看不見的說話者進行梅爾譜圖反演。我們的pytorch實施在GTX 1080Ti GPU上的運行速度比實時快100倍以上,在CPU上的運行速度比實時快2倍以上,而沒有任何針對硬件的優化技巧。即將發佈帶有示例和隨附代碼的博客文章。
請訪問我們的網站獲取樣本。您可以嘗試使用MelGAN根據端到端語音合成管道創建的語音糾正應用程序。
如果您不參加NeurIPS 2019會議,請查看幻燈片以查看我們的海報。
END
聲明:本文來源於Github
如有侵權,聯繫刪除
掃碼添加聯盟小編,可與相關學者研究人員共同交流學習:目前開設有人工智能、機器學習、計算機視覺、自動駕駛(含SLAM)、Python、求職面經、綜合交流羣掃描添加CV聯盟微信拉你進羣,備註:CV聯盟
最新熱文薦讀
點個在看支持一下吧