Uncovering Latent Style Factors for Expressive Speech Synthesis

最近拜讀王宇軒的舊作,希望能順着作者的思路窺得一點語音合成研究的方向。 這篇文章應該是宇軒大佬剛進谷歌發表的,2017年。應該是tacotron發表之後,GST的想法雛形,因此文章只放在axriv上邊。 abstract 本文旨在控制語音合成的韻律,在tacotron的基礎上加"style token",從而不需要註釋的數據,可以直接通過data-driven的方式,學到各種韻律的變化。變長的句子
相關文章
相關標籤/搜索