【計算機科學】【2016.06】基於神經網絡的魯棒實時語音識別中的音頻分割

時間 2020-12-23

原文原文鏈接

本文爲德國卡爾斯魯厄理工學院（作者：Micha Wetzel）的學士論文，共57頁。多媒體內容損害了自動語音識別（ASR）系統的識別精度和速度。本學士學位論文介紹了一種分段器，通過檢測音頻源中的音樂和噪聲片段並用靜音代替，來提高實時ASR系統的性能。提出了一種由幀分類和平滑兩步組成的方法。大小爲10毫秒的音頻幀用分類模型分類爲語音、音樂或噪聲。以神經網絡和支持向量機爲模型，對多種設置進行了比較，