深度學習+語音，基礎普及篇筆記（一）

時間 2021-01-08

原文原文鏈接

深度學習應用領域，可以分爲3大塊：圖像，語音，文字。最近有時間，研究下語音：（一）定義語音是一個連續的音頻流，它是由大部分的穩定態和部分動態改變的狀態混合構成。一個單詞的發聲（波形）實際上取決於很多因素，而不僅僅是音素，例如音素上下文、說話者、語音風格等。（二）語音識別其中有個圖（連續語音識別框架圖）看不清楚，如下：（三）結果評定 1、WER（Word error rate），單詞錯誤

>>阅读原文<<