最近,Facebook AI Research(FAIR)宣佈了第一個全收斂語音識別工具包wav2letter++。該系統基於徹底卷積方法進行語音識別,訓練語音識別端到端神經網絡的速度是其餘框架的兩倍以上。他們在博客中詳細介紹了這個開源軟件。html
因爲端到端語音識別技術能夠容易地擴展到多種語言而且同時保證在各類環境中的識別質量,所以一般認爲它是一種有效且穩定的語音識別技術。雖然遞歸卷積神經網絡在處理具備遠程依賴性的建模任務(例如語言建模,機器翻譯和語音合成)中占主導地位,可是循環架構是端到端語音識別任務的主流。linux
鑑於此,Facebook人工智能研究所(FAIR)的語音團隊上週推出了第一個全卷積語音識別系統。該系統徹底由卷積層組成,消除了特徵提取步驟和僅訓練端到端音頻。預測波形中的轉錄文本,而且經過外部卷積語言模型對文本進行解碼。而後Facebook宣佈開源wav2letter++ - 這種高性能框架的出現,使端到端語音識別技術可以實現快速迭代,爲將來的優化工做和模型調優奠基堅實的基礎。後端
宣佈開源wav2letter++,以及機器學習庫Flashlight。 Flashlight是一個基於C ++的機器學習庫,它使用ArrayFire張量庫,並在C ++中實時編譯,目的是最大限度地提升CPU和GPU後端的效率和規模。 wave2letter++工具包基於Flashlight基礎構建。最重要的是,它也是用C++編寫的,ArrayFire是張量庫。網絡
本節重點介紹ArrayFire,它能夠在CUDA GPU和CPU支持的各類後端上執行,支持多種音頻文件格式(如wav,flac等),並支持多種類型的功能,包括原始音頻。線性縮放功率譜,對數梅爾譜(MFSC)和MFCC。架構
原文來自:https://www.linuxidc.com/Linux/2018-12/156060.htm框架
本文地址:https://www.linuxprobe.com/wav2letter-voice-system.html編輯:roc_guo,審覈員:逄增寶機器學習