Python實現語音識別和語音合成

時間 2020-12-31

原文原文鏈接

聲音的本質是震動，震動的本質是位移關於時間的函數，波形文件(.wav)中記錄了不同採樣時刻的位移。通過傅里葉變換，可以將時間域的聲音函數分解爲一系列不同頻率的正弦函數的疊加，通過頻率譜線的特殊分佈，建立音頻內容和文本的對應關係，以此作爲模型訓練的基礎。案例：畫出語音信號的波形和頻率分佈，（freq.wav數據地址） # -*- encoding:utf-8 -*- import numpy a