百度推出完全端到端的並行音頻波形生成模型,比WaveNet快千倍 | 論文

稿件來源:百度硅谷研究院 量子位授權轉載 | 公衆號 QbitAI 語音合成(Text-to-Speech,TTS)是將自然語言文本轉換成語音音頻輸出的技術,在AI時代的人機交互中扮演至關重要的角色。 百度硅谷人工智能實驗室的研究員最近提出了一種全新的基於WaveNet的並行音頻波形(raw audio waveform)生成模型ClariNet,合成速度比起原始的WaveNet提升了數千倍,可以
相關文章
相關標籤/搜索