語音識別系統是深度學習生態中發展最成熟的領域之一。當前這一代的語音識別模型基本都是基於遞歸神經網絡(Recurrent Neural Network)對聲學和語言模型進行建模,以及用於知識構建的計算密集的特徵提取流水線。雖然基於RNN的技術已經在語音識別任務中獲得驗證,但訓練RNN網絡所須要的大量數據和計算能力已經超出了大多數機構的能力範圍。最近,Facebook的AI研究中心(FAIR)發表的一個研究論文,提出了一種新的單純基於卷積神經網絡(Convolutional Neural Network)的語音識別技術,並且提供了開源的實現wav2letter++,一個徹底基於卷積模型的高性能的語音識別工具箱。算法
在深度學習領域,在語音識別系統中使用CNN並不新鮮,可是大部分應用都侷限於特定的任務,並且一般與RNN結合起來構成完整的系統。可是當前CNN領域的研究代表只使用卷積神經網絡也有潛力在語音識別的全部領域達到最高水平,例如機器翻譯、存在長程依賴的語言模型的語音合成等。CNN模型與其餘技術的最大優點在於它不須要額外並且昂貴的特徵提取計算就能夠自然地對諸如MFCC之類的標準特徵計算進行建模。所以長久以來,深度學習社區一直都期待着在語音識別工做流中徹底使用CNN,由於這要比目前的基於RNN的模型更高效也更富有競爭力。後端
通過不少次實驗,FAIR團隊決定依賴於一個整合多個不一樣CNN層的架構來實現端對端的語音識別流水線,從音頻波形處理到語言轉錄。該架構基於下圖所示的散射模型:網絡
模型的第一層CNN用來處理原始音頻並提取一些關鍵特徵;接下來的卷積聲學模型是一個具備門限單元的CNN,可經過訓練從音頻流中預測字母;卷積語言模型層則根據來自聲學模型的輸入生成候選轉錄文本;最後環節的集束搜索(Beam-Search)編碼器則完成最終的轉錄單詞序列。架構
FAIR團隊將其全卷積語音識別模型與最早進的模型進行了對比,它能夠用少的多的訓練數據達到基本一致的性能,測試結果使人滿意所以FAIR團隊決定開源該算法的初始實現。框架
雖然深度學習技術近期的進步促進了自動語音識別(Automatic Speech Recognition)框架和工具箱的增長。然而,全卷機語音識別模型的進步,激勵了FAIR團隊建立wav2letter++,一個徹底使用C++實現的深度語音識別工具箱。wav2letter++的核心設計基於如下三個關鍵原則:異步
基於以上原則,wav2letter++實現了以下圖所示的很是直白的架構:函數
爲了更好地理解wav2letter++的架構,有如下幾點值得着重指出:工具
FAIR團隊將wav2letter++與其餘語音識別進行了對比測試,例如ESPNet、Kaldi和OpenSeq2Seq。實驗基於著名的華爾街日報CSR數據集。初始結果代表wav2letter++在訓練週期中的任一方面都完勝其餘方案。性能
徹底基於CNN的語音識別系統固然是一個有意思的實現途徑,它能夠優化對計算能力和訓練數據的需求。Facebook的wav2letter++實現已經被視爲當前最快的語音識別框架之一。咱們將在不久的將來看到該領域愈來愈多的進步。學習
匯智網翻譯整理,轉載請標明出處:Introducing Wav2letter++