基於深度前饋序列記憶網絡,如何將語音合成速度提升四倍?

研究背景 語音合成系統主要分爲兩類,拼接合成系統和參數合成系統。其中參數合成系統在引入了神經網絡作爲模型之後,合成質量和自然度都獲得了長足的進步。另一方面,物聯網設備(例如智能音箱和智能電視)的大量普及也對在設備上部署的參數合成系統提出了計算資源的限制和實時率的要求。本工作引入的深度前饋序列記憶網絡可以在保持合成質量的同時,有效降低計算量,提高合成速度。 我們使用基於雙向長短時記憶單元(BLSTM
相關文章
相關標籤/搜索