上篇博客(語音識別傳統方法(GMM+HMM+NGRAM)概述)說到咱們team要作語音識別相關的項目,而咱們公司的芯片是用在終端上的,即咱們要作終端上的語音識別。因爲目前終端(如手機)上的CPU還不足夠強勁,不能讓語音識別的各類算法跑在終端上,尤爲如今語音識別都是基於深度學習來作了,更加不能跑在終端上,因此目前主流的語音識別方案是聲音採集和前處理在終端上作,語音識別算法則放在服務器(即雲端)上跑。雖然這種方案有泄漏隱私(把終端上的語音數據發給服務器)和沒有網絡不能使用等缺點,但也是不得已而爲之的,相信在不久的未來等終端上的CPU足夠強勁了會把語音識別的全部實現都放在終端上的。html
是否是意味着終端上作不了語音識別相關的算法了?其實也不是,語音喚醒功能是須要在終端上實現的。語音喚醒是指設定一個喚醒詞,如Siri的「Hi Siri」,只有用戶說了喚醒詞後終端上的語音識別功能纔會處於工做狀態,不然處於休眠狀態。這樣作主要是爲了降功耗,增長續航時間。目前不少終端都是靠電池供電的,對功耗很敏感,是不容許讓語音識別功能一直處於工做狀態的。爲此我就對語音喚醒技術作了一番調研。依舊是看各類文檔和博客,而後進行梳理和總結,造成PPT,給組內同窗介紹。在此我也把PPT貼出來,給有須要或感興趣的朋友看看,有什麼不正確的也請指正。個人PPT中的一些圖是用的文檔或他人博客裏的,謝謝這些原做者。如下就是個人關於語音喚醒技術的PPT。算法