Almost Unsupervised Text to Speech and Automatic Speech Recognition

Abstract: 無監督方法,只需要利用幾百對文本—語音對和額外的無標籤的數據,提供給TTS和ASR components: 1.a denosising auto-encoder 2. 雙機制訓練;TTS是把text y轉成語音x,ASR把利用x和y進行訓練,反之亦然 3. 雙向序列建模,主要解決長語音序列和文本序列在訓練過程中出現的錯誤傳播問題 4.一個unified model 包含 TT
相關文章
相關標籤/搜索