Uncovering Latent Style Factors for Expressive Speech Synthesis

時間 2021-07-12

原文原文鏈接

最近拜讀王宇軒的舊作，希望能順着作者的思路窺得一點語音合成研究的方向。這篇文章應該是宇軒大佬剛進谷歌發表的，2017年。應該是tacotron發表之後，GST的想法雛形，因此文章只放在axriv上邊。 abstract 本文旨在控制語音合成的韻律，在tacotron的基礎上加"style token"，從而不需要註釋的數據，可以直接通過data-driven的方式，學到各種韻律的變化。變長的句子

>>阅读原文<<