GitHub標星近10萬:只需5秒音源就能實時「克隆」你的聲音!

  作者 | Google團隊 譯者 | 凱隱 編輯 | Jane 出品 | AI科技大本營(ID:rgznai100) 本文中,Google 團隊提出了一種文本語音合成(text to speech)神經系統,能通過少量樣本學習到多個不同說話者(speaker)的語音特徵,併合成他們的講話音頻。此外,對於訓練時網絡沒有接觸過的說話者,也能在不重新訓練的情況下,僅通過未知說話者數秒的音頻來合成其講
相關文章
相關標籤/搜索