Hierarchical Generative Modeling for Controllable Speech Synthesis筆記

時間 2021-01-07

原文原文鏈接

文章目錄可控語音合成的分層生成建模一、簡介二、模型 2.1 具有分層隱式變量的可控生成模型 2.2 變分推論和訓練 2.3 顯示分類標籤的連續屬性空間 2.4 神經網絡結構三、相關研究四、實驗可控語音合成的分層生成建模本文提出了一種神經端到端文本到語音（TTS）模型，該模型可以控制生成的語音中潛在的屬性，這些屬性很少在訓練數據中註釋，例如說話風格，重音，背景噪聲和記錄條件。該模型被公