NeurIPS 2019 | MelGAN:基於生成對抗網絡快速生成音頻

作者丨武廣 學校丨合肥工業大學碩士生 研究方向丨圖像生成 談到數據的生成,很多人都會想到利用生成對抗網絡(GAN)去實現,這對於圖像和視頻這種較易於編碼表示的數據是合適的。然而在實現音頻的生成時,卻是困難重重,首先音頻具有較高的時間分辨率(通常至少爲每秒 16,000 個樣本),並且在不同時間尺度上存在具有短期和長期依賴性的結構。 就目前基於 GAN 做音頻生成的文章中,基本上都是生成出音頻對應的
相關文章
相關標籤/搜索