語音識別中喚醒技術調研語音識別傳統方法(GMM+HMM+NGRAM)概述

時間 2019-12-14

標籤語音識別喚醒技術調研傳統方法 gmm+hmm+ngram gmm hmm ngram 概述简体版

原文原文鏈接

上篇博客（語音識別傳統方法(GMM+HMM+NGRAM)概述）說到咱們team要作語音識別相關的項目，而咱們公司的芯片是用在終端上的，即咱們要作終端上的語音識別。因爲目前終端（如手機）上的CPU還不足夠強勁，不能讓語音識別的各類算法跑在終端上，尤爲如今語音識別都是基於深度學習來作了，更加不能跑在終端上，因此目前主流的語音識別方案是聲音採集和前處理在終端上作，語音識別算法則放在服務器（即雲端）上跑。雖然這種方案有泄漏隱私（把終端上的語音數據發給服務器）和沒有網絡不能使用等缺點，但也是不得已而爲之的，相信在不久的未來等終端上的CPU足夠強勁了會把語音識別的全部實現都放在終端上的。html

是否是意味着終端上作不了語音識別相關的算法了？其實也不是，語音喚醒功能是須要在終端上實現的。語音喚醒是指設定一個喚醒詞，如Siri的「Hi Siri」，只有用戶說了喚醒詞後終端上的語音識別功能纔會處於工做狀態，不然處於休眠狀態。這樣作主要是爲了降功耗，增長續航時間。目前不少終端都是靠電池供電的，對功耗很敏感，是不容許讓語音識別功能一直處於工做狀態的。爲此我就對語音喚醒技術作了一番調研。依舊是看各類文檔和博客，而後進行梳理和總結，造成PPT，給組內同窗介紹。在此我也把PPT貼出來，給有須要或感興趣的朋友看看，有什麼不正確的也請指正。個人PPT中的一些圖是用的文檔或他人博客裏的，謝謝這些原做者。如下就是個人關於語音喚醒技術的PPT。算法