FastSpeech: Fast, Robust and Controllable Text to Speech

Abstract: 提出一種基於transformer的新型前饋網絡FastSpeech,和自迴歸的Transformer TTS相比 將梅爾譜的生成速度提高了近270倍。端到端的語音合成速度提高了38倍,大gpu上語音合成速度達到實時語音速度的30倍 Introduction: 基於神經網絡的tts和傳統語音合成的拼接法和參數法相比,end to end的TTS通常具有更好的聲音自然度。 但在基
相關文章
相關標籤/搜索