One-shot VC by Separating Speaker and Content Representations with Instance Normalization閱讀

時間 2020-12-26

原文原文鏈接

會議：2019 interspeech 單位：國立臺灣大學作者：Ju-chieh Chou, Hung-yi Lee 過往有許多關於音色轉換的研究主要集中在並行語料集的基礎上的，已經能夠實現將一種的音色轉換成其多種其他人音色（例如訊飛留聲，百度地圖個性化聲音導航等），而且效果比較不錯。但是這種方案有明顯的缺陷，包括：（1）訓練數據要求較嚴格（並行數據）。（2）只能轉換處於訓練集內的人的音色。基於