Cross-lingual TTS via Domain Adaptation and Perceptual Similarity Regression 論文梳理

時間 2021-03-16

原文原文鏈接

0. Abstract 我們提出了一種改進跨語言文本到語音合成性能的方法。先前的作品能夠通過揚聲器編碼器對揚聲器空間中的揚聲器個性進行建模，但是在合成跨語言語音時會降低性能。這是因爲由所有發言人嵌入形成的發言人空間完全取決於語言。爲了構建獨立於語言的說話者空間，我們將跨語言語音合成作爲領域自適應問題，並提出一種訓練方法，使說話者編碼器將不同語言的說話者嵌入到同一空間。此外，爲了提高說話者的個性並構