深度學習+語音,基礎普及篇筆記(一)

深度學習應用領域,可以分爲3大塊:圖像,語音,文字。最近有時間,研究下語音: (一)定義 語音是一個連續的音頻流,它是由大部分的穩定態和部分動態改變的狀態混合構成。 一個單詞的發聲(波形)實際上取決於很多因素,而不僅僅是音素,例如音素上下文、說話者、語音風格等。 (二)語音識別 其中有個圖(連續語音識別框架圖)看不清楚,如下: (三)結果評定 1、WER(Word error rate),單詞錯誤
相關文章
相關標籤/搜索