產業:算法
Nuance:全球最大的語音識別技術提供商
IBM:具備強大數學底蘊的老牌語音識別研究機構
Microsoft:Vista操做系統中首次加入語音識別功能
Google:憑藉互聯網方面的優點GOOG-411,音樂搜索網絡
學術:框架
Cambridge:HTK工具對學術界研究推進巨大
CMU:SPHINX-李開復
SRI,MIT,RWTH,ATR異步
語音識別實用化方面的兩種論調 工具
悲觀:缺乏殺手級應用,與人類的語音識別水平還有很大差距
樂觀:Nuance能如此成功,計算機存儲和運算能力的不斷提升操作系統
語音識別各類具體應用路由
命令詞系統
識別語法網絡相對受限,對用戶要求較嚴格
菜單導航,語音撥號,車載導航,數字字母識別等等
• 智能交互系統
對用戶要求較爲寬鬆,須要識別和其餘領域技術的結合
呼叫路由,POI語音模糊查詢,關鍵詞檢出
• 大詞彙量連續語音識別系統
海量詞條,覆蓋面廣,保證正確率的同時實時性較差
• 結合互聯網的語音搜索
實現語音到文本,語音到語音的搜索同步
語音識別基本原理數學
貝葉斯統計建模框架(MAP/最大後驗機率決策準則)it
聲學特徵提取
簡單來講, x是一個幀序列,而每幀就是一個多維向量
聲學模型
聲學單元應該具備的特性
• 一致性:不一樣語音實例中相同的語音單元在聲學上一致
• 可訓練性:建模單元須要足夠的訓練數據來進行參數估計
• 可共享性:不一樣的建模單元之間共享某些具備共性的訓練數據
• 聲學單元如何挑選?
• 句子(sentence): 科大訊飛實驗室
• 單詞(word): 科大-訊飛-實驗室
• 單字(syllable): 科-大-訊-飛-實-驗-室
• 音素(phone): k-e-d-a-x-un-f-ei-sh-i-y-an-sh-i
• 考慮協同發音的三元音素(tri-phone):ei-sh+i和an-sh+I
• 精細建模和訓練數據量之間的矛盾如何解決?參數綁定
• 聲學單元對應的模型形式應該是什麼?
• 隱Markov模型(HMM),神經網絡(NN)
Markov過程和Markov鏈
• 描述了一個最小記憶系統的隨機行爲
/**安德雷·安德耶維齊·馬爾可夫**/
• HMM的幾要素
HMM的兩假設
一、一階Markov假設
二、輸出無關假設
HMM的三個問題
• 評估問題
• 給定HMM模型參數以及一串觀測序列,如何求得觀測序列的似然度
• 解碼問題
• 給定HMM模型參數以及一串觀測序列,如何搜索出最優的狀態序列
• 訓練問題
• 給定觀測序列,如何獲得模型參數
評估問題
運算量太大,須要尋找快速算法—前向算法(Forward Algorithm)
解碼問題—Viterbi算法
訓練問題—最大似然估計
• EM算法( Expectation-Maximization Algorithm)
• Baum-Welch算法/先後向算法(Forward-Backward )
語言模型
解碼搜索
• Viterbi算法
• 時間同步和時間異步
• 搜索空間裁減
• N-best和Word-Graph
• 對於命令詞/孤立詞識別網絡,狀況要簡化不少
• 對於每條命令詞先擴展成HMM序列,而後計算得分
• 選擇得分最大的做爲識別輸出結果
語音識別的難點及其餘相關技術介紹 • 說話人的差別 • 不一樣說話人:發音器官,口音,說話風格 • 同一說話人:不一樣時間,不一樣狀態 • 噪聲影響 • 背景噪聲 • 傳輸信道,麥克風頻響 • 魯棒性技術 • 區分性訓練 • 特徵補償和模型補償