語音識別

時間 2019-11-11

標籤語音識別简体版

原文原文鏈接

產業：算法

Nuance：全球最大的語音識別技術提供商
IBM：具備強大數學底蘊的老牌語音識別研究機構
Microsoft：Vista操做系統中首次加入語音識別功能
Google：憑藉互聯網方面的優點GOOG-411，音樂搜索網絡

學術：框架

Cambridge：HTK工具對學術界研究推進巨大
CMU：SPHINX-李開復
SRI，MIT，RWTH，ATR異步

語音識別實用化方面的兩種論調工具

悲觀：缺乏殺手級應用，與人類的語音識別水平還有很大差距
樂觀：Nuance能如此成功，計算機存儲和運算能力的不斷提升操作系統

語音識別各類具體應用路由

命令詞系統
識別語法網絡相對受限，對用戶要求較嚴格
菜單導航，語音撥號，車載導航，數字字母識別等等
• 智能交互系統
對用戶要求較爲寬鬆，須要識別和其餘領域技術的結合
呼叫路由，POI語音模糊查詢，關鍵詞檢出
• 大詞彙量連續語音識別系統
海量詞條，覆蓋面廣，保證正確率的同時實時性較差
• 結合互聯網的語音搜索
實現語音到文本，語音到語音的搜索同步

語音識別基本原理數學

貝葉斯統計建模框架（MAP/最大後驗機率決策準則）it

聲學特徵提取

簡單來講， x是一個幀序列，而每幀就是一個多維向量

聲學模型

聲學單元應該具備的特性
• 一致性：不一樣語音實例中相同的語音單元在聲學上一致
• 可訓練性：建模單元須要足夠的訓練數據來進行參數估計
• 可共享性：不一樣的建模單元之間共享某些具備共性的訓練數據
• 聲學單元如何挑選？
• 句子(sentence): 科大訊飛實驗室
• 單詞(word)：科大-訊飛-實驗室
• 單字(syllable)：科-大-訊-飛-實-驗-室
• 音素(phone)： k-e-d-a-x-un-f-ei-sh-i-y-an-sh-i
• 考慮協同發音的三元音素(tri-phone)：ei-sh+i和an-sh+I
• 精細建模和訓練數據量之間的矛盾如何解決？參數綁定
• 聲學單元對應的模型形式應該是什麼？
• 隱Markov模型（HMM），神經網絡（NN）

Markov過程和Markov鏈
• 描述了一個最小記憶系統的隨機行爲

/**安德雷·安德耶維齊·馬爾可夫**/

• HMM的幾要素

HMM的兩假設

一、一階Markov假設

二、輸出無關假設

HMM的三個問題
• 評估問題
• 給定HMM模型參數以及一串觀測序列，如何求得觀測序列的似然度
• 解碼問題
• 給定HMM模型參數以及一串觀測序列，如何搜索出最優的狀態序列
• 訓練問題
• 給定觀測序列，如何獲得模型參數

評估問題

運算量太大，須要尋找快速算法—前向算法（Forward Algorithm）

解碼問題—Viterbi算法

訓練問題—最大似然估計
• EM算法（ Expectation-Maximization Algorithm）
• Baum-Welch算法/先後向算法（Forward-Backward ）

語言模型