語音識別任務大進展:實現5.1%的低錯誤率

去年,微軟的演講和對話研究小組宣佈了一項里程碑,即在交換機上的會話語音識別任務中達到人類的平等地位,這意味着咱們已經創造了至關於專業的人類轉錄員的在對話中識別單詞的技術。web

在咱們的轉錄系統達到了咱們對人類測量的5.9%的錯誤率後,其餘研究人員進行了他們本身的研究,採用了更多的多轉錄過程,產生了5.1%錯誤率。這與先前的研究相一致,研究代表,人們在花費更多的精力和努力時,對所使用的準確詞語達成了更高的一致性。微信

8月20日,微軟語音和對話研究團隊負責人黃學東宣佈微軟語音識別系統繼去年以後再次取得重大突破,錯誤率由5.9%進一步下降到5.1%,可與專業速記員比肩。這次突破大幅刷新原先記錄,並在語音識別行業樹立新的里程碑。網絡

這兩次研究轉錄的都是Switchboard語料庫中的錄音,Switchboard是一個電話通話錄音語料庫,自上世紀90年代以來一直被研究人員做爲測試語音識別系統的樣本。語音識別測試任務包括對陌生人對話交流中的不一樣話題,好比體育和政治方面的討論,進行從語音到文字的轉錄。架構

研究人員經過改進微軟語音識別系統中基於神經網絡的聽覺和語言模型,在去年基礎上下降了大約12%的出錯率,同時引入了CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory,帶有雙向LSTM的卷積神經網絡)模型,用於提高語音建模的效果。而且,系統中之前就在使用的從多個語音模型進行綜合預測的方法,現在在幀/句音級別和單詞級別下均可以發揮效果。工具

除此之外,研究人員還對整個對話過程進行歷史記錄分析,預測接下來可能會發生的事情,進一步增強識別器的語言模型,使其可以有效適應對話話題和語境的快速轉變。測試

微軟認知工具包Microsoft Cognitive Toolkit 2.1(CNTK)在研究過程當中表現突出,研究人員充分利用CNTK探索模型架構和優化模型的超參數。此外,微軟對雲計算基礎設施(特別是AzureGPU)的投資,也幫助提高了訓練模型、測試新想法的效果和速度。優化

實現識別準確率上的「人類對等」是語音識別領域過去25年來一直奮力追求的研究目標,微軟始終堅持深耕語音識別,併力爭將新技術最快、最好地運用到Cortana、Presentation Translator、Microsoft Cognitive Services等微軟產品和服務中,讓用戶可以親身體驗新技術的魅力。微軟的研究團隊很是高興能夠看到天天有數百萬的用戶在使用這些產品,將來將更加努力,創造出更具突破性的工做成果。雲計算

語音識別技術的進步創造了語音翻譯等服務,能夠實時地爲多語種受衆翻譯演示文稿。人工智能

工業和學術界的許多研究小組在語音識別方面作得很好,咱們本身的工做從社區的總體進步中受益不淺。而實現5.1%錯誤率在語音識別任務是一個重大成就,可是解決科研界仍有許多挑戰,好比達到人類水平的識別與遙遠的麥克風在嘈雜的環境中,方言識別,有限訓練數據條件下的語音識別或較少人使用的語言的語音識別。此外,咱們還有不少工做要作。spa

 

本文譯自Microsoft researchers achieve new conversational speech recognition milestone

原文連接:https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/

本文分享自微信公衆號 - AI MOOC人工智能平臺(AIMOOC_XLAB)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索