End-to-End簡介

簡介

1、非端到端學習(傳統的語音識別系統)

傳統的語音識別需要把語音轉換成語音特徵向量,然後把這組向量通過機器學習,分類到各種音節上(根據語言模型),然後通過音節,還原出最大概率的語音原本要表達的單詞,一般包括以下模塊:

  • 特徵提取模塊 (Feature Extraction):該模塊的主要任務是從輸入信號中提取特徵,供聲學模型處理。一般也包括了一些信號處理技術,儘可能降低環境噪聲、說話人等因素對特徵造成的影響,把語音變成向量。
  • 聲學模型 (Acoustic Model): 用於識別語音向量
  • 發音詞典 (Pronnuciation Dictionary):發音詞典包含系統所能處理的詞彙集及其發音。發音詞典提供了聲學模型與語言模型間的聯繫。
  • 語言模型 (Language Model):語言模型對系統所針對的語言進行建模。
  • 解碼器 (Decoder):任務是對輸入的信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。

傳統的語音識別中的語音模型和語言模型是分別訓練的,缺點是不一定能夠總體上提高識別率。

來自wiki

 

2、端到端學習(端到端的語音識別系統)

preview

端到端學習的思路則非常簡單:音頻→學習算法→轉錄結果;

而現在,我們可以直接通過深度學習將語音直接對標到我們最終顯示出來的文本。

通過深度學習自己的特徵學習功能來完成從特徵提取到音節表達的整個過程。

在給定了足夠的有標註的訓練數據時(語音數據以及對應的文本數據),端到端的語音識別方法的效果會很好。