全新語音合成系統FastSpeech——更好的聲音自然度

目前,基於神經網絡的端到端文本到語音合成技術發展迅速,但仍面臨不少問題——合成速度慢、穩定性差、可控性缺乏等。爲此,微軟亞洲研究院機器學習組和微軟(亞洲)互聯網工程院語音團隊聯合浙江大學提出了一種基於Transformer的新型前饋網絡FastSpeech,兼具快速、魯棒、可控等特點。與自迴歸的Transformer TTS相比,FastSpeech將梅爾譜的生成速度提高了近270倍,將端到端語音
相關文章
相關標籤/搜索