1、非端到端學習(傳統的語音識別系統)
傳統的語音識別需要把語音轉換成語音特徵向量,然後把這組向量通過機器學習,分類到各種音節上(根據語言模型),然後通過音節,還原出最大概率的語音原本要表達的單詞,一般包括以下模塊:
傳統的語音識別中的語音模型和語言模型是分別訓練的,缺點是不一定能夠總體上提高識別率。
來自wiki
2、端到端學習(端到端的語音識別系統)
端到端學習的思路則非常簡單:音頻→學習算法→轉錄結果;
而現在,我們可以直接通過深度學習將語音直接對標到我們最終顯示出來的文本。
通過深度學習自己的特徵學習功能來完成從特徵提取到音節表達的整個過程。
在給定了足夠的有標註的訓練數據時(語音數據以及對應的文本數據),端到端的語音識別方法的效果會很好。