DeepMind發佈最新原始音頻波形深度生成模型WaveNet,將爲TTS帶來無數可能

編者按:Google的DeepMind研究實驗室昨天公佈了其在語音合成領域的最新成果——WaveNet,一種原始音頻波形深度生成模型,能夠模仿人類的聲音,生成的原始音頻質量優於目前Google採用的兩種最優文本-語音模型Parameric TTS與Concatenative TTS。 WaveNets是一種卷積神經網絡,能夠模擬任意一種人類聲音,生成的語音聽起來比現存的最優文本-語音系統更爲自然,
相關文章
相關標籤/搜索