Tacotron2 論文閱讀

論文下載 ABSTRACT 這篇論文描述了Tacotron 2, 一個直接從文本合成語音的神經網絡架構。系統由兩部分構成,一個循環seq2seq結構的特徵預測網絡,把字符向量映射爲梅爾聲譜圖,後面再接一個WaveNet模型的修訂版,把梅爾聲譜圖合成爲時域波形。我們的模型得到了4.53的平均意見得分(MOS),專業錄製語音的MOS得分是4.58。爲了驗證模型設計,我們對系統的關鍵組件作了剝離實驗研究
相關文章
相關標籤/搜索