語音識別

產業:算法

Nuance:全球最大的語音識別技術提供商 
IBM:具備強大數學底蘊的老牌語音識別研究機構 
Microsoft:Vista操做系統中首次加入語音識別功能 
Google:憑藉互聯網方面的優點GOOG-411,音樂搜索網絡

學術:框架

Cambridge:HTK工具對學術界研究推進巨大 
CMU:SPHINX-李開復 
 SRI,MIT,RWTH,ATR異步

語音識別實用化方面的兩種論調 工具


悲觀:缺乏殺手級應用,與人類的語音識別水平還有很大差距 
樂觀:Nuance能如此成功,計算機存儲和運算能力的不斷提升操作系統

語音識別各類具體應用路由

命令詞系統 
識別語法網絡相對受限,對用戶要求較嚴格 
 菜單導航,語音撥號,車載導航,數字字母識別等等 
• 智能交互系統 
 對用戶要求較爲寬鬆,須要識別和其餘領域技術的結合 
 呼叫路由,POI語音模糊查詢,關鍵詞檢出 
• 大詞彙量連續語音識別系統 
 海量詞條,覆蓋面廣,保證正確率的同時實時性較差 
• 結合互聯網的語音搜索 
 實現語音到文本,語音到語音的搜索同步

 

語音識別基本原理數學

貝葉斯統計建模框架(MAP/最大後驗機率決策準則)it

 

聲學特徵提取

簡單來講, x是一個幀序列,而每幀就是一個多維向量

聲學模型

聲學單元應該具備的特性 
• 一致性:不一樣語音實例中相同的語音單元在聲學上一致 
• 可訓練性:建模單元須要足夠的訓練數據來進行參數估計 
• 可共享性:不一樣的建模單元之間共享某些具備共性的訓練數據 
• 聲學單元如何挑選? 
• 句子(sentence): 科大訊飛實驗室 
• 單詞(word): 科大-訊飛-實驗室 
• 單字(syllable): 科-大-訊-飛-實-驗-室 
• 音素(phone): k-e-d-a-x-un-f-ei-sh-i-y-an-sh-i 
• 考慮協同發音的三元音素(tri-phone):ei-sh+i和an-sh+I 
• 精細建模和訓練數據量之間的矛盾如何解決?參數綁定 
• 聲學單元對應的模型形式應該是什麼? 
• 隱Markov模型(HMM),神經網絡(NN) 

Markov過程和Markov鏈 
• 描述了一個最小記憶系統的隨機行爲

/**安德雷·安德耶維齊·馬爾可夫**/

• HMM的幾要素

 

HMM的兩假設

一、一階Markov假設

二、輸出無關假設

HMM的三個問題 
• 評估問題 
• 給定HMM模型參數以及一串觀測序列,如何求得觀測序列的似然度 
• 解碼問題 
• 給定HMM模型參數以及一串觀測序列,如何搜索出最優的狀態序列 
• 訓練問題 
• 給定觀測序列,如何獲得模型參數

 

 

評估問題

運算量太大,須要尋找快速算法—前向算法(Forward Algorithm)

解碼問題—Viterbi算法 

 

 

訓練問題—最大似然估計 
• EM算法( Expectation-Maximization Algorithm) 
• Baum-Welch算法/先後向算法(Forward-Backward ) 

 

語言模型

解碼搜索 
• Viterbi算法 
• 時間同步和時間異步 
• 搜索空間裁減 
• N-best和Word-Graph 
 
• 對於命令詞/孤立詞識別網絡,狀況要簡化不少 
• 對於每條命令詞先擴展成HMM序列,而後計算得分 
• 選擇得分最大的做爲識別輸出結果

語音識別的難點及其餘相關技術介紹    • 說話人的差別  • 不一樣說話人:發音器官,口音,說話風格  • 同一說話人:不一樣時間,不一樣狀態  • 噪聲影響  • 背景噪聲  • 傳輸信道,麥克風頻響    • 魯棒性技術  • 區分性訓練  • 特徵補償和模型補償 

相關文章
相關標籤/搜索