語音交互事關將來,國內外已經很多公司在搶蛋糕了,大公司收購、投資、合做不斷,就可見一斑。目前,基本上全部的巨頭都有涉足。算法
2014 年 7 月,有消息稱,蘋果正在聯繫多位語音識別技術的專家,正在招聘經理、小組負責人、研究員,極可能將成立一支強大的語音識別團隊,並最終取代如今的 Siri 技術服務商 Nuance。過去幾年中,蘋果招聘了多名此前供職於 Nuance 的的高層次語音技術研究員,包括前研究副總裁拉里·吉利克 (Larry Gillick)、Siri 的項目經理貢納爾·艾弗曼(Gunnar Evermann)、微軟語音識別項目高管亞歷克斯·阿賽洛(Alex Acero)。瀏覽器
在 2013 年,蘋果收購了自動語音識別公司 Novauris Technologies。Novauris 是英國研究機構 Dragon Systems 旗下的附屬公司,以語音聽寫識別著稱,成立於 2012 年。固然,怎麼能忘了最著名的那筆收購呢,2010 年 4 月,以 1.5~2.5 億美圓收購了 Siri。網絡
Google 在 2014 年收購了 SR Tech Group 的多項語音識別相關的專利,其中包括「 搜索引擎語音界面」 和「 修改、更新語音識別項目系統」的專利。app
Google 一直致力於投資語音搜索技術,以期與蘋果公司的 Siri 展開競爭。2011 年,Google收購語音通訊技術公司SayNow 和語音合成技術 Phonetic Arts。 其中,SayNow 建立於 2005 年,能夠把語音通訊、點對點對話、以及羣組通話和 社交應用整合在一塊兒,支持的設備包括 PC 瀏覽器、智能手機乃至座機。被收購時,有 1500 萬用戶,旗下產品包括 SayNow Phone,SayNow 廣播,Big Call 以及 Chit Chat 等。機器學習
語音交互解決方案服務商 Wit.ai 要作的就是重寫互聯網的語音層,簡單地在第三方 App 中加入幾行代碼來爲它生成一個語音交互界面,就能把語言轉化成能夠操做的數據。正如移動支付公司 Stripe 經過幾行代碼就爲網站解決了線上支付問題同樣。Wit.ai 稱,它比 Siri 更靈敏精確,不須要開發者先期投資,或訓練數據集,並且能夠應用在移動應用程序 (iOS、Android 等平臺)、穿戴設備和機器人以及幾乎任何你能夠想到的智能設備。被收購時,Wit.ai 成立才 18 個月,吸引了 6000 多名開發者,建立的應用超過了數百個。這次收購有助於提升 Facebook 總體對天然語言的理解能力。學習
除了 Wit.ai,Facebook 還在 2013 年收購了語音識別公司 Mobile Technologies。MT 建立於 2001 年,在 2009 年推出了 Jibbigo 應用,容許用戶在 25 種語言中進行選擇,使用一種語言進行語音片斷錄製或文本輸入,而後將翻譯顯示在屏幕上,根據你選擇的語言大聲讀出來。網站
2011 年,Amazon收購語音識別公司Yap。Yap 成立於 2006 年,主要提供語音轉文本服務,表明應用是 Yap 語音郵件。利用 Yap 的技術亞馬遜創建本身的語音技術平臺,服務於亞馬遜的網上搜索和客戶服務等領域。搜索引擎
2012 年,Amazon 收購語音技術公司 Evi。Evi 是一家應該創業公司,原名 True Knowledge,在得到了 Nuance 語音識別技術的受權後,基於自主的天然語言搜索引擎開發了一款與蘋果 Siri 相似的應用。人工智能
2013 年,Amazon 收購語音技術公司 Ivona Software。Ivona 是一家波蘭公司,是 Nuance 的競爭對手,主要作文本語音轉換,被收購時支持 17 種語言 44 種聲音。翻譯
2013 年,英特爾收購了語音識別技術公司 Indisys。這是一家西班牙公司,但自稱一直在作多語音。在計算語言學、人工智能、認知科學和機器學習領域有研究,很多西班牙公司都採購了他們家的技術。此外,他們還開發了與蘋果 Siri 類似的助手界面。
關於三星和 Nuance 的緋聞已經傳了段時間。Nuance 的語音識別技術在智能手機、電視和 GPS 導航設備上都有普遍應用,好比蘋果的 Siri 就是用的它的技術;其餘一些企業級市場也有須要用到語音識別的地方,好比醫院裏的電子病歷業務,醫生直接口述就能生成電子病歷。2013 年 9 月份時,Nuance 還同三星達成合做。
2013 年 12 月,雅虎收購了天然語言處理技術初創公司 SkyPhrase。Gmail 和 Twitter 的相關技術支持就是 SkyPhrase 提供的,容許用戶跟機器說「人話」獲得個性化的搜索結果。好比「NANA 發的帶圖微博」,或者「Jane 發給個人包含照片的電子郵件」——這樣複雜的信息 Siri 是理解不動的。SkyPhrase 還開發了兩款應用,其中一款能讓用戶查看夢幻足球的比分統計數據,另外一款應用與 Google Analytics 整合發揮做用。
爲了推雅虎語音助手,雅虎還找到了合做夥伴Robin Labs,後者主要作天然語言識別和導航。除開發本身的私人助手的導航應用外,如今它還爲客戶提供語音助手白標產品的開發。」也就是說,理論上講,每一個應用均可以添加一個特定的語音助手模塊。既然雅虎語音助手實際上是 Robin Labs 開發的,那它會被收購麼?
其實,除了這些大公司和被他們收購的小公司,還有幾家初創公司作的也挺有意思。好比,下面這兩家。
Beyond Verbal 是一家以色列公司,成立於 2012 年,在情緒識別領域一直領先。Beyond Verbal 系統建立的算法能夠經過識別音域變化,從而分析出像憤怒、焦慮、幸福或知足等情緒,心情、態度的細微差異也能被識別到。Beyond Verbal 的情緒識別系統能夠分析出 11 個類別, 400 個複雜情緒的變量。
2013 年 1 月,他們開發的情緒識別 app moodies 在 iOS 平臺發佈;2014 年 8 月,他們開發了 moodies 的安卓版。2013 年 5 月,得到了 280 萬美圓融資;2013 年 7 月,又得到了 100 萬追加融資。2014 年 9 月,又追加了 330 萬美圓種子融資。
在 2014 年耶路撒冷召開的 TEDMEDLive 上,就引入了 Beyond Verbal 的技術來對全部與會人員的情緒進行分析,進而總結整個會議的總體反饋狀況。
英國的初創企業 EI Technologies 也是一家作語音情緒識別的公司,能夠分析人聲的音調,監控用戶的情緒。以前從孵化器 Wayra London 和英國政府的 Technology Strategy Board 拿到了 15 萬英鎊的種子期融資。
目前系統可識別 5 種基本情緒:高興、悲傷、懼怕、憤怒及無感情。識別的準確率約爲 70-80% 左右,這個數字要高於人類 60% 的平均水平。而受過訓練的心理學家的判斷準確率約爲 70%,從這些數據來看,EI 的算法準確率已經很是可觀。其將來目標是進一步提升到 80-90%。
經過識別並恰當響應語言內容和情緒來加強天然語言處理算法彷佛是人工智能系統的下一步發展方向。《銀翼殺手》裏面的複製人的致命缺陷正是缺少「移情(empathy)」能力。如今這三家公司的技術正幫助機器朝着具有「移情」能力邁出一小步—首先學會感覺人類的情緒。不過這也是個龐大又複雜的工程。