論文翻譯-語音合成：Tacotron 2

時間 2021-01-05

標籤語音简体版

原文原文鏈接

原論文地址：https://arxiv.org/abs/1712.05884 摘要這篇論文描述了Tacotron 2，一個直接從文本合成語音的神經網絡架構。系統由兩部分構成，一個循環seq2seq結構的特徵預測網絡，把字符向量映射到梅爾聲譜圖，後接一個WaveNet模型的修訂版，把梅爾聲譜圖合成爲時域波形。我們的模型得到了4.53的平均意見得分（MOS），而專業錄製語音的MOS得分是4.58。

>>阅读原文<<