【計算機科學】【2016.06】基於神經網絡的魯棒實時語音識別中的音頻分割

本文爲德國卡爾斯魯厄理工學院(作者:Micha Wetzel)的學士論文,共57頁。 多媒體內容損害了自動語音識別(ASR)系統的識別精度和速度。本學士學位論文介紹了一種分段器,通過檢測音頻源中的音樂和噪聲片段並用靜音代替,來提高實時ASR系統的性能。提出了一種由幀分類和平滑兩步組成的方法。大小爲10毫秒的音頻幀用分類模型分類爲語音、音樂或噪聲。以神經網絡和支持向量機爲模型,對多種設置進行了比較,
相關文章
相關標籤/搜索