三個小白是如何在三個月內搭一個基於kaldi的嵌入式在線語音識別系統的

前面的博客裏說過最近幾個月我從傳統語音(語音通訊)切到了智能語音(語音識別)。剛開始是學語音識別領域的基礎知識,學了後把本身學到的寫了PPT給組內同窗作了presentation(語音識別傳統方法(GMM+HMM+NGRAM)概述)。一段時間後老闆就佈置了具體任務:在咱們公司本身的ARM芯片上基於kaldi搭建一個在線語音識別系統,三我的花三個月左右的時間完成。因爲咱們都是語音識別領域的小白,要求能夠低些,就用傳統的GMM-HMM來實現。說實話接到這個任務咱們內心是有點沒底的,不知道能不能按時完成,畢竟咱們對語音識別不熟,對kaldi不熟。既然任務下達了,硬着頭皮也要上,並盡最大努力完成。我本能的先在網上用百度/google搜了搜,看有沒有一些經驗可供參考,好讓咱們少走彎路。遺憾的是沒搜到有價值的東西。沒辦法,咱們只能根據本身之前的經驗摸索着前進。最終咱們按計劃花了不到三個月的時間完成了嵌入式平臺上在線語音識別系統的搭建。雖然只是demo,可是爲後面真正作商用的產品打下了良好的基礎,累積了很多的經驗。今天我就把咱們怎麼作的分享出來,給也想作相似產品的朋友作個參考。html

 

既然做爲一個項目來作,就要有計劃,分幾個階段完成這個項目。我在學習語音識別基礎知識時對kaldi有一個簡單的瞭解(在作語音識別前就已知kaldi的大名,沒辦法這幾年人工智能(AI)太熱了。智能語音做爲人工智能的主要落地點之一,好多都是基於kaldi來實現的。我是作語音的,天然會關注這個熱門領域的動態)。根據對kaldi的簡單瞭解,我把項目分紅了三個階段,第一階段是學習kaldi,對kaldi有一個更深的認識,同時搞清楚基於kaldi作方案後面有哪些事情要作,計劃花一個月左右的時間完成。第二階段是設計軟件架構、寫代碼、訓練模型等,也是花一個月左右的時間完成。第三階段是調試,提高識別率,仍是花一個月左右的時間完成。計劃的時間會根據實際狀況作微調。web

 

1,第一階段網絡

第一階段就是學習kaldi。因爲咱們是三我的作這個項目,我就把學習任務分紅三塊:數據準備和MFCC、GMM-HMM模型訓練、解碼網絡建立和解碼。在其餘兩位同窗挑好模塊後剩下的解碼網絡建立和解碼就有我來學習了。學習過程就是看網上文章、看博客和看kaldi代碼、腳本的過程。學完後你們搞清楚了後面有哪些事情要作,同時作了PPT給組內同窗講,讓你們共同提升。解碼相關的見我前面的文章(基於WFST的語音識別解碼器 )。Kaldi中解碼有兩種類型:offline(多用於模型調試等)和online(多用於在線識別等),其中online也有兩種方式,一種是經過PortAudio從MIC採集語音數據作在線語音識別,另外一種是經過讀音頻WAV文件的方式作在線語音識別。咱們要作的是在線語音識別,這兩個就是很好的參考,尤爲是經過PortAudio從MIC採集方式的,頗有必要弄明白運行機制。因而我根據網上的博客基於thchs30搭建了PC上的在線識別來調試,基本上搞清楚了代碼的運行機制。Kaldi中設定採樣率爲16kHZ,每幀25ms(其中幀移10ms),每27幀爲一組集中作MFCC特徵提取和解碼,這樣處理一組的語音時長是285ms(25+(27-1)*10=285),共4560(16*285=4560)個採樣點。每次處理完一組後就從buffer中再取出一組作MFCC和解碼,解碼後看有沒有識別的字出來,有的話就打印出來。多線程

 

2,第二階段 架構

第一階段主要是學習,第二階段就要真正幹活了。咱們在Linux上開發,先制定系統搭建完成後的目標:設備用數據線連在PC上,能在線實時識別英文數字0—9(選識別這些是由於網上有現成的英國人說的音頻源,咱們能夠省去錄音頻源的工做,好節約時間),即人對着設備說出英文數字0—9後PC屏幕上能實時打印出來,識別率接近GMM-HMM模型下的較好值。你們的任務仍是沿襲第一階段的。學習數據準備和MFCC的同窗先數據準備相關的工做,如標註等,好給模型訓練的同窗用,而後移植kaldi中MFCC相關的代碼。學習模型訓練的同窗先開始模型訓練的準備工做,等要準備的數據好了後就開始訓練。我負責整個軟件架構的設計,同時還要把kaldi中的絕大部分(除了MFCC)移植進咱們系統中。經過對kaldi的學習,使我對怎麼設計這個在線語音識別的軟件架構有了更深的認識。語音識別分兩個階段,即訓練階段和識別階段。訓練階段就是獲得模型給識別階段用。它相對獨立,咱們就基於kaldi來訓練模型,最終獲得final.mdl等文件給識別階段的軟件用(在初始化時讀取這些文件獲得解碼網絡)。識別階段的軟件主要分兩部分,聲音採集和識別(包括特徵提取和解碼)。這樣系統就有兩個thread,一個是聲音採集thread(audio capture thread),它基於ALSA來作,負責聲音的採集和前處理(如噪聲抑制),另外一個是識別thread(kaldi process thread),負責MFCC和解碼。兩個thread經過ring buffer交互數據,同時要注意數據的保護。這樣系統的軟件架構框圖以下:框架

 

你們對軟件架構討論以爲沒什麼問題後我就開始寫代碼搭建軟件框架了。在 Linux中建立thread等都是一些套路活。Audio capture thread裏先作初始化,包括ALSA的配置以及前處理模塊的初始化等。而後就每隔必定時間經過ALSA_LIB的API完成一次音頻數據的採集工做,讀完數據後就作前處理,處理好後把音頻數據放進ring buffer中,同時激活kaldi process thread,讓kaldi process thread開始幹活。Kaldi thread也是先作一些初始化的工做,而後睡下去等待激活。激活後先從ring buffer裏取語音數據,而後作MFCC和decoder。完成後又睡下去等待下次再被激活。搭建軟件框架時kaldi相關的代碼還沒被移植進去,kaldi process thread裏僅僅把從ring  buffer裏拿到的語音數據寫進PCM文件,而後用CoolEdit聽,聲音正常就說明軟件框架基本成型了。剛開始時audio capture thread裏也沒加前處理模塊,調試時把從ALSA裏獲取的數據寫進PCM文件聽後發現有噪聲,就加了噪聲抑制(ANS)模塊。這個模塊用的是webRTC裏的。webRTC裏的三大前處理模塊(AEC/ANS/AGC)幾年前我就用過,此次拿過來簡單處理一下就用好了,去噪效果也挺好的。ANS一個loop是10ms,而前面說過kaldi裏在線識別解碼一次處理一組27幀是285ms,我就取二者的最小公倍數570ms做爲audio capture thread的loop時間。從ALSA取到語音數據後分57(570/10 = 57)次作噪聲抑制,再把抑制後的語音數據寫進ring buffer。Kaldi thread激活後仍是每次取出285ms語音數據作處理,只不過要取兩次(570/285 = 2)。函數

 

軟件架構搭好後就開始移植kaldi代碼了。Kaldi代碼量大,不可能也不必所有移植到咱們系統裏,只須要移植咱們須要的就能夠了。怎樣才能移植咱們須要的代碼呢?考慮後我用了以下的方法:先把在線解碼相關的代碼移植進去,而後開始不停的編譯,報什麼錯提示缺什麼就加什麼,直到編譯經過。這種方法保證了把須要的文件都移植進系統了,但有可能某些文件中的函數沒用到,即到文件級還沒到函數級。因爲時間緊,這個問題就暫時無論了。移植過程更多的是一個體力活,須要當心細緻。在移植過程當中遇到問題就去網上搜,最後都圓滿解決了。Kaldi主要用到了三個開源庫:openfst、BLAS、LAPACK。BLAS和LAPACK我用的常規方法,即到官網上下載編譯後生成庫,而後把庫和頭文件放到系統的」/usr/lib」和「/use/include」下,讓其餘代碼用。kaldi支持的有BALS庫有 ATLAS / CLAPACK / openBLAS / MKL等。在X86的Ubuntu PC上跑kaldi時就用的Intel的MKL,在ARM上就不能用了,須要用其餘的幾種之一。我評估下來用了openBLAS,主要由於三點:1)它是BSD的;2)它支持多種架構(ARM/X86/MIPS/….),是開源庫裏性能最好的(各類架構裏都嵌了不少的彙編代碼),被多家著名公司使用,如IBM/ARM/nvidia/huawei等;3)它有多個編譯選項可供選擇,好比單線程/多線程選擇、設定線程數等。BLAS的早期代碼都是用fortran寫的,後來用C對其進行了封裝,因此係統還要加上對fortran的支持。對openFST,我發現用到的代碼並很少,也就沒用常規的方法,而是直接把用到的代碼移植進系統。我移植好編譯沒問題後另外一個同窗把剩下的MFCC以及和ALSA接口(用ALSA接口替代kaldi裏的PortAudio接口)相關的也移植進去了。這樣移植工做就算結束了。對比了下移植進系統的kaldi代碼和kaldi裏SRC下的代碼,應該是隻用了其中一小部分。下圖顯示了移植進系統的kaldi文件(沒列出相關的頭文件)。同時負責模型訓練的同窗也有了一個初步的模型生成的文件,把這些文件放進系統裏就能夠跑起來了,人說話後PC屏幕上就有詞打印出來,不過不正確。這也正常呀,由於還沒調試呢!oop

 

 

3,第三階段性能

第三階段就是調試。第二階段結束後說話就有詞出來,但都是錯的,須要排查定位問題。在線語音識別系統從大的角度能夠分兩塊:模型和代碼實現。首先咱們須要定位是模型的問題仍是代碼實現的問題,先從模型排查。在第一階段時利用thchs30大體搞清楚了在線解碼的機制,是用模型tri1調的,當時識別率不好。如今要關注識別率了,把模型換成了tri2b,識別率有所提升。這說明kaldi裏的在線解碼的代碼是沒有問題的,識別率差問題出在模型。何況全球這麼多人在用kaldi,若是在線解碼有問題應該早就fix了。因此咱們決定把咱們生成的模型文件放進thchs30裏來驗證模型是否有問題。爲了排除從MIC輸入的音頻數據有噪聲等的干擾,先用讀文件的方式驗證。把咱們的模型文件放進去後發現基本識別不正確,這說明模型是有問題的。負責模型的同窗去調查,發現用於訓練的音源都是8K採樣的,可是在線解碼用的都是16K採樣的,這是咱們本身挖的坑,用重採樣程序把8K的所有轉成16K的,這個坑也就填好了,可是識別率依舊很差。又發現訓練集全是英國人的發音,而測試集是咱們中國人的發音,有必定口音的,最好用咱們中國人本身的發音做爲訓練集。因而咱們本身又錄了用於訓練的音源,爲了加大訓練的數據,又請好多其餘人錄了音源。訓練後獲得了新的模型,再放到thchs30裏面驗證,識別率有六七成了,這說明模型的大方向對了,爲了提升識別率,模型還須要繼續調試。學習

 

接下來就要看代碼部分是否有問題了。把新生產的模型放進咱們本身的系統,而且用從音頻文件都數據的方式(咱們的系統既能夠從MIC採集數據也能夠從音頻文件讀數據,從音頻文件讀數據是爲了debug)來替代從MIC採集到的數據(這樣作是爲了排除噪聲等因素的干擾)來看代碼是否有問題。運行下來發現識別率依舊不好,這說明咱們的代碼也是有問題的。在第二階段我已經調試過部分代碼,確保了在kaldi process thread裏從PCM ring buffer裏拿到的音頻數據是沒有問題的。還有兩方面須要調試,一是送進MFCC的PCM數據要是OK的,二是咱們的在線解碼機制要跟kaldi裏的在線解碼機制徹底同樣。一很快就調試好了。二是先再深刻研究吃透kaldi裏的在線解碼機制,改正咱們與它不同的地方,通過兩三天調試後識別率跟thchs30裏的差很少了,這說明咱們的代碼通過調試後也有一個好的base了,後面就要開始調性能了。

 

前面是經過從音頻文件中讀取數據來作在線識別的,數據相對乾淨些。如今要從MIC讀取音頻數據作真正在線識別了,試下來後識別率明顯偏低,這說明咱們的前處理還沒徹底作好(前面調試時只加了ANS模塊)。我把前處理後的音頻數據dump出來用CoolEdit聽,的確有時候音質很差,因而我又把webRTC中的AGC模塊加上去,再次dump出前處理後的音頻數據聽,屢次聽後都感受音質正常。再來運行加了AGC後的從MIC採集音頻數據的在線識別,識別率果真有了明顯的提高。前處理能作的都作了,要想再提升識別率,就要靠模型發力了。作模型的同窗一邊請更多的人錄音源來訓練,一邊嘗試各類模型,最終用的是tri4b,有了一個相對不錯的識別率。因爲咱們用的是GMM-HMM,現在主流的語音識別中已再也不使用,老闆就以爲沒有必要再調了,後面確定會用主流的模型的,可是整個嵌入式上的在線語音識別軟件代碼尤爲軟件架構和音頻採集仍是有用的,後面就要基於這些代碼作真正的產品。

 

對語音識別領域的資深人士來講,這個嵌入式在線語音識別系統還很稚嫩。但經過搭這個系統,讓咱們對語音識別領域有了多一點的感性認識,也有了一個良好的開端,給老闆以信心,而且能夠繼續作下去。此次工程上的事情偏多,後面但願更深刻的作下去,累積更多的語音識別領域的經驗。搭這個系統沒有任何可供參考的資料,純粹是根據咱們以往的經驗摸索着搭出來的。作的產品可能不同,但不少解決問題的思路都是同樣的。若是有朋友也搭過嵌入式上的在線語音識別系統,歡迎探討,搭出一個更好的在線語音識別系統。

原文出處:https://www.cnblogs.com/talkaudiodev/p/11240033.html

相關文章
相關標籤/搜索