Tacotron 2

摘要 本文主要講了一個將文本合成語音的神經網絡架構。系統兩部分:第一部分是一個循環的seq2seq結構的預測網絡,作用是把字符向量映射到梅爾聲譜圖;第二部分是接一個修改的wavenet把梅爾聲譜圖合成時域波形。模型平均意見得分MOS是4.53。 介紹: TTS過去一直是把使用單元挑選和拼接式合成方法。把預先錄製的語音波形的小片段合在一起。 統計參數的語音合成方法是直接生成語音特徵的平滑軌跡,然後交
相關文章
相關標籤/搜索