目前自然語音合成(TTS)進度一點見解

目前實驗模型wavenet,parallel wavenet, tacotron, deep voice 3, clarinet 1. 需要preemphasis來產生更好的音頻 來自社區國人tacotron2的commit 2. 轉換到mu-law域可以stabilize訓練過程,加速converge, 但是好像對最優解生成的音頻質量沒什麼影響,所以現在訓練還是raw 3. 最終converge
相關文章
相關標籤/搜索