深度學習+語音,基礎普及篇筆記(一)

深度學習應用領域,能夠分爲3大塊:圖像,語音,文字。最近有時間,研究下語音:網絡 (一)定義框架 語音是一個連續的音頻流,它是由大部分的穩定態和部分動態改變的狀態混合構成。 一個單詞的發聲(波形)實際上取決於不少因素,而不只僅是音素,例如音素上下文、說話者、語音風格等。 工具 (二)語音識別性能 其中有個圖(連續語音識別框架圖)看不清楚,以下:學習 (三)結果評定spa 一、WER(Word er
相關文章
相關標籤/搜索