語音識別系統wav2letter++簡介

時間 2019-12-13

標籤語音識別系統 wav2letter wav letter 簡介简体版

原文原文鏈接

語音識別系統是深度學習生態中發展最成熟的領域之一。當前這一代的語音識別模型基本都是基於遞歸神經網絡（Recurrent Neural Network）對聲學和語言模型進行建模，以及用於知識構建的計算密集的特徵提取流水線。雖然基於RNN的技術已經在語音識別任務中獲得驗證，但訓練RNN網絡所須要的大量數據和計算能力已經超出了大多數機構的能力範圍。最近，Facebook的AI研究中心（FAIR）發表的一個研究論文，提出了一種新的單純基於卷積神經網絡（Convolutional Neural Network）的語音識別技術，並且提供了開源的實現wav2letter++，一個徹底基於卷積模型的高性能的語音識別工具箱。算法

在深度學習領域，在語音識別系統中使用CNN並不新鮮，可是大部分應用都侷限於特定的任務，並且一般與RNN結合起來構成完整的系統。可是當前CNN領域的研究代表只使用卷積神經網絡也有潛力在語音識別的全部領域達到最高水平，例如機器翻譯、存在長程依賴的語言模型的語音合成等。CNN模型與其餘技術的最大優點在於它不須要額外並且昂貴的特徵提取計算就能夠自然地對諸如MFCC之類的標準特徵計算進行建模。所以長久以來，深度學習社區一直都期待着在語音識別工做流中徹底使用CNN，由於這要比目前的基於RNN的模型更高效也更富有競爭力。後端

全卷積語音識別架構

通過不少次實驗，FAIR團隊決定依賴於一個整合多個不一樣CNN層的架構來實現端對端的語音識別流水線，從音頻波形處理到語言轉錄。該架構基於下圖所示的散射模型：網絡

模型的第一層CNN用來處理原始音頻並提取一些關鍵特徵；接下來的卷積聲學模型是一個具備門限單元的CNN，可經過訓練從音頻流中預測字母；卷積語言模型層則根據來自聲學模型的輸入生成候選轉錄文本；最後環節的集束搜索（Beam-Search）編碼器則完成最終的轉錄單詞序列。架構

FAIR團隊將其全卷積語音識別模型與最早進的模型進行了對比，它能夠用少的多的訓練數據達到基本一致的性能，測試結果使人滿意所以FAIR團隊決定開源該算法的初始實現。框架

Wav2letter++

雖然深度學習技術近期的進步促進了自動語音識別（Automatic Speech Recognition）框架和工具箱的增長。然而，全卷機語音識別模型的進步，激勵了FAIR團隊建立wav2letter++，一個徹底使用C++實現的深度語音識別工具箱。wav2letter++的核心設計基於如下三個關鍵原則：異步

實如今包含成千上萬小時語音數據集上的高效模型訓練
簡單可擴展模型，能夠接入新的網絡架構、損失函數以及其餘語音識別系統中的核心操做
平滑語音識別模型從研究到生產部署的過渡

基於以上原則，wav2letter++實現了以下圖所示的很是直白的架構：函數

爲了更好地理解wav2letter++的架構，有如下幾點值得着重指出：工具

ArrayFire張量庫：wav2letter++使用ArrayFire做爲張量操做的基礎庫。ArrayFire支持硬件無關的高性能並行建模，能夠運行在多種後端上，例如CUDA GPU後端或CPU後端
數據預備和特徵提取：wav2letter++支持多種音頻格式的特徵提取。框架能夠在每次網絡評估以前即時計算特徵，而且經過異步並行計算來實現模型訓練的效率最大化
模型：wav2letter++包含一組豐富的端對端序列模型，也包含衆多網絡架構以及激活函數。
可擴展的訓練：wav2letter++支持三種主要的訓練模式：
- train ：從零開始訓練
- continue ：從檢查點狀態繼續訓練(continuing with a checkpoint state),
- fork ：可用於遷移學習。訓練流水線使用並行數據、同步隨機梯度降低以及基於NVIDIA的集羣通訊庫，能夠無縫伸縮。
解碼：wav2letter++解碼器是基於前面提到的全卷積架構中的集束搜索解碼器，它負責輸出最終的音頻轉錄文本