論文翻譯-語音合成:Tacotron 2

原論文地址:https://arxiv.org/abs/1712.05884 摘要 這篇論文描述了Tacotron 2, 一個直接從文本合成語音的神經網絡架構。系統由兩部分構成,一個循環seq2seq結構的特徵預測網絡,把字符向量映射到梅爾聲譜圖,後接一個WaveNet模型的修訂版,把梅爾聲譜圖合成爲時域波形。我們的模型得到了4.53的平均意見得分(MOS),而專業錄製語音的MOS得分是4.58。
相關文章
相關標籤/搜索