https://zhuanlan.zhihu.com/p/20568285前端
聲學在線前幾日盤點了語音識別業界相關的公司和技術,引發了衆多朋友的關注。很多朋友都在諮詢聲學在線關於技術細節問題,所以,咱們打算春節期間連續發佈幾篇深度文章,但願從語音識別領域的公司、技術、算法和專利的層面解讀出語音識別的產生、發展、應用與瓶頸,以此提供給相關行業的朋友們做爲參考。算法
目前朋友們最關心的就是當前有哪些語音識別開放平臺,顯然你們更擔憂被某個平臺所綁架。爲了促進語音識別的行業發展,咱們更深刻一步,不只盤點當前的商業開放平臺,也把這個領域的開源代碼詳細盤點一番,讓更多的朋友瞭解這個行業。編程
語音識別領域的商用開源代碼盤點 網絡
語音識別是一門交叉學科,其所涉及的領域包括:信號處理、模式識別、機率論和信息論、發聲機理和聽覺機理、人工智能等等。可是隨着深度學習技術的發展,雲端的語音識別更多的偏向於計算機技術。顯然,從事計算機技術研究的人員更加衆多,這也是語音識別的快速發展的基礎,於是也造成了語音識別的開源代碼要比開放平臺更多的現象。模塊化
提到語音識別的開源代碼,首先就要提到三個很是著名的開源平臺,即Kaldi、CMU Sphinx和Julius。筆者大概按其重要性作了如下排名,Sphinx、HTK之類曾經很紅火,可是確實也有點太老了。而Kaldi是Apache licence,徹底能夠商用,美國和中國不少公司都是直接修改Kaldi生成的語音識別引擎。另外,不少巨頭公司內部研究部門也是在用Kaldi作研發,關於這些歡迎留言討論。工具
1.Kaldi佈局
Kaldi誕生於2009年的JohnsHopkins University,剛開始項目重點是子空間高斯模型(SGMM)建模和詞彙學習抽樣調查,代碼也是基於HTK進行的開發,如今也是C++做爲主要語言。可是隨着更多參與者的加入,特別是對深度神經網絡(DNN)的支持,讓Kaldi的發展超過了其餘幾個著名開源項目。更重要的是Kaldi的維護和更新很是及時,基本上天天都有新的進展報告,並且在跟進學術研究的新算法方面也更加快速。國外不少公司和研究機構也都在用Kaldi平臺,固然國內更多的公司,其實也是基於這個平臺作的改進,特別是最近幾年新興的公司和企業研究院。性能
2.CMU-Sphinx學習
CMU-Sphinx是卡內基-梅隆大學(CarnegieMellon University,CMU)開發的一款開源的語音識別系統,後來Sun、三菱、惠普、加州大學聖克魯斯分校和麻省理工也對其有所貢獻。Sphinx包括一系列的語音識別器和聲學模型訓練工具,使用了固定的HMM模型(中科院聲學所也曾經引領了HMM國內潮流),被稱爲第一個高性能的連續語音識別系統。Sphinx的發展也很快,如今Sphinx-4已經徹底用Java語言改寫,很適合嵌入到Android平臺。另外,筆者這裏還要強調下李開復先生對Sphinx的貢獻,雖然爭論不少。人工智能
3.Julius
Julius是日本京都大學和日本IPA(Information-tech-nologyPromotion Agency)聯合開發的一個實用高效雙通道的大詞彙連續語音識別引擎。Julius經過結合語言模型和聲學模型,能夠很方便地創建一個語音識別系統。Julius支持的語言模型包括:N-gram模型,以規則爲基礎的語法和針對孤立詞識別的簡單單詞列表。Julius支持的聲學模型必須是以分詞爲單位,且由HMM定義的。Julius由純C語言開發,遵循GPL開源協議,Julius最新的版本採用模塊化的設計思想,使得各功能模塊能夠經過參數配置。
4.HTK
HTK是Hidden Markov ModelToolkit(隱馬爾科夫模型工具包)的簡稱,HTK主最初是由劍橋大學工程學院(Cambridge University Engineering Department ,CUED)的機器智能實驗室於1989年開發的,它被用來構建CUED的大詞彙量的語音識別系統。HTK主要包括語音特徵提取和分析工具、模型訓練工具、語音識別工具。HTK實際上於1999年被微軟收購,可是這樣反而阻礙了HTK的發展,所以後來微軟又受權開源。HTK的版本更新至關緩慢,2015年總算髮布了其3.5 Beta版本。
5.RWTH ASR
RWTH ASR是一個包含語音識別解碼器與工具的聲學模型開發軟件包,2001年由 RWTH Aachen 大學的Human Language Technology and Pattern Recognition Group 開發。RWTH ASR也是由C++開發,主要包括說話人自適應組件、說話人自適應訓練組件、非監督訓練組件、個性化訓練和單詞詞根處理組件等。
上述5種語音識別開源代碼是基礎的開源版本,基於這些版本誕生了很多衍生的版本,好比Platypus,FreeSpeech,Vedics,NatI,Simon,Xvoice,Zanzibar,OpenIVR,Dragon Naturally Speaking等等,其中,Dragon Naturally Speaking比較有意思,被Nuance收購後也做爲了其產品名稱。
另外多說幾句,語音識別重要的開源代碼幾乎都是來源於國外大學研究機構的主要貢獻。這或許也是國內大學和研究機構的改革方向,拿着納稅人的錢,是否是也應該作出這種促進行業發展的基礎貢獻?一樣,國家也不該該給大學和研究機構太過於功利性的考覈。一個行業的繁榮發展,須要大量基礎研究的貢獻,而這不是企業所能擔負的任務。
語音識別領域的免費開放平臺盤點
語音識別的開源代碼雖然衆多,可是部署應用至關複雜。特別是基於深度學習的開源平臺,須要大量的計算和數據以訓練引擎,這個對於通常的用戶來講也是一個很是高的技術門檻。所以對於創業型公司來說,顯然本身部署語音識別引擎也不划算,那麼免費的開放平臺就是很好的選擇。
Nuance是語音識別領域的老牌勁旅,除了語音識別技術外,還包擴語音合成、聲紋識別等技術。Nuance Voice Platform(NVP)是Nuance公司推出的語音互聯網平臺,這是一個開放的、基於統一標準的語音平臺產品。它可以支持客戶公司已有的IT投資和基礎設備,同時能夠加入語音的應用。可是,Nuance一直有個問題就是過於託大,對創業型的小公司也不太感興趣,每天想着攀比各個行業的巨頭。也難怪,這也是個策略,最近也據說Dragon Drive將在新奧迪A3上提供一個免提通信接口,能夠實現信息的據說獲取和傳遞。
微軟的Speech API是微軟推出的包含語音識別(SR)和語音合成(SS)引擎的應用編程接口,其最新版本是Microsoft Speech API (SAPI) 5.4。SAPI支持多種語言的識別和朗讀,包括英文、中文、日文等。微軟的API調用模式,我想衆位都是很是熟悉了,這裏也再也不多強調。可是,微軟總有個問題,就是任何一個產品都得和Windows綁定。這也讓人工智能領域的研發人員頭疼不已,總不能在機器人裏面裝個Windows吧,因此面向PC的語音識別沒啥前途。
這個領域天然不能少了蘋果和谷歌,可是蘋果打死也不會免費的,而谷歌打死也不會收費的。可是,這沒有意義了,由於無論你的引擎多麼優秀,如今的語音識別仍是要基於雲的。因此國內的衆多創業用戶壓根用不了,甚至也訪問不到。可是若是你的產品主要佈局在國外,Google Speech API仍是要備選的,由於這個API調用起來更加方便。
IBM必需要提到,或許咱們逐漸淡忘了這個曾經極其輝煌的巨頭,可是IBM絕對是較早開始語音識別研究的機構之一。早在20世紀50年代末期,IBM就開始了語音識別的研究。1964年世博會上,IBM就向世人展現了數字語音識別。 1984年,IBM發佈的語音識別系統在5000個詞彙量級上達到了95%的識別率。1996年IBM發佈了新版的聽寫系統VoiceType3.0,這是viaVoice的原型。這個版本的語音識別系統不須要訓練,能夠實現孤立單詞的聽寫和連續命令的識別。1999年,IBM發佈了VoiceType的一個免費版。2003年,viaVoice就已經很是流行,可是2005年,IBM受權代理viaVoice的ScanSoft公司與Nuance公司合併,viaVoice也就惋惜的退出了歷史舞臺。如今也只能從網上搜索下載一些桌面版本,對於市場應用來講,基本上也就沒有什麼價值了。
科大訊飛1999年成立,做爲中國最大的智能語音技術提供商,在智能語音技術領域有着長期的研究積累,並在中文語音合成、語音識別、口語評測等多項技術上擁有國際領先的成果。科大訊飛目前提供語音識別、語音合成、聲紋識別等全方位的語音交互技術。目前也是國內創業團隊使用最爲普遍的開放語音識別平臺,科大訊飛擁有中科大的教育資源和中科院的技術資源,並且已經佔據先機,主要仍是看其將來的戰略如何發展。
百度語音自從和中科院聲學所合做之後,在賈磊帶領下短期內創建起來本身的引擎,並且打出了永久免費的口號,在不少領域搶佔了必定的市場,在百度有錢任性的支持下天然發展迅速。可是,最近據說百度語音變更極大,新請來的吳恩達彷佛和賈磊有些不合,傳聞NG先生意欲整合百度語音,致使賈磊已經離職。並且百度語音最近招聘不少聲學方面相關的學生,或許NG先生對百度語音又有了新的戰略構想。實際上,NG先生負責的是百度大腦計劃,語音交互天然要做爲其中尤其重要的一環,而大腦計劃若想落地,就必然須要終端設備的支持,而這也涉及到了衆多聲學前端技術。可是百度着急招人,給學生的待遇卻沒有太大競爭力。
小結
國內的語音識別開放平臺還不少,和國外有所不一樣,國內開放的都是語音識別的專業公司,好比雲之聲、思必馳、捷通華聲等等。可是這些公司也有隱憂,沒有巨頭那種資金實力,僅靠融資運轉顯然沒法達到良性循環。如今來看,這幾家公司都正在積極參與智能終端的語音交互方向,但願藉此方向儘快落地賺錢。不過,筆者以爲這個方向,反而不是這些公司的強項。
雲端語音識別大量依靠計算機方面的人才,而智能終端語音交互則須要聲學方面的人才。因此最近許多公司都在拼命招聘這方面的人才,其中,不乏有360、愛奇藝,甚至YY、唱吧也跟着湊熱鬧。不過這個領域人才稀少,既然做爲公司戰略,不妨多給聲學專業的學生一點重視,至少薪酬方面,不要低於計算機方面學生的薪酬。學習聲學專業的學生都須要進行大量實驗的積累,雖然不像化學那樣危險,可是一樣很累很辛苦。況且這種依賴於物理和生理的聲學問題,也不是通常的技術人員就能短期內掌握的。