Tacotron 2

時間 2021-01-18

標籤 TTS Tacotron2 简体版

原文原文鏈接

摘要本文主要講了一個將文本合成語音的神經網絡架構。系統兩部分：第一部分是一個循環的seq2seq結構的預測網絡，作用是把字符向量映射到梅爾聲譜圖；第二部分是接一個修改的wavenet把梅爾聲譜圖合成時域波形。模型平均意見得分MOS是4.53。介紹： TTS過去一直是把使用單元挑選和拼接式合成方法。把預先錄製的語音波形的小片段合在一起。統計參數的語音合成方法是直接生成語音特徵的平滑軌跡，然後交

>>阅读原文<<