轉:細數國內市場智能語音開放平臺有哪些?

原文網址:http://www.sohu.com/a/206437824_610706微信

 

引語:亞馬遜的Echo大賣掀起了一股語音智能的熱潮,語音交互技術成爲煊赫一時的時代寵兒。在突飛猛進的科技領域,眼看則人工智能將要引領一番新的革命,互聯網巨頭和科技創業公司都紛紛入場。新時代的商業規則蘊含着新的機遇,對於雙方而言,這都是一次從新洗牌的最佳窗口期網絡

什麼是語音開放平臺,及何爲開放?架構

這一年來,幾乎語音行業內的大小公司都在作一件事,那就是試圖創建由本身主導的語音生態產業鏈。在這個產業鏈中,產品製造商,技術服務商,平臺提供商內容服務商組成整個產業鏈的生態。能夠說,誰的生態系統最完善,將來誰就將分得更大的市場份額。大勢當前,幾乎全部的語音技術公司都開放了其智能語音平臺,給硬件開發者,應用技能開發者提供了語音交互能力,也招徠更多的玩家進入到他們建立的生態系統之中。框架

各大語音平臺比較工具

開放平臺的主要功能,就是賦予硬件或技能應用得到「能聽會說,更智能」的能力。目前,各大科技公司都紛紛開放語音能力,意欲吸引更多的玩家入場,下文筆者將詳細分析比較各大智能語音開放平臺。佈局

BAT巨頭開發工具

百度DuerOS開放平臺:DuerOS是百度推出的對話式人工智能操做系統,即智能語音交互平臺。DuerOS的技術架構包含「對話服務」和「技能框架」兩大基礎協議。兩大協議連通起來的對話核心系統、智能設備開放平臺和技能開放平臺,構成了完整DuerOS的智能生態系統。大數據

圖爲DuerOS 2.0系統構架網站

智能設備開放平臺面向傳統硬件廠商和開發者輸出軟硬兼備的多層次解決方案,包括我的版、輕量版、標準版、參考設計等多樣化解決方案,可以低成本、方便靈活地知足各個類型廠商和開發者不一樣層次的需求。例如,軟硬一體化的智能語音交互開發解決方案SoundPi,集成全方向喚醒、聲源測向、定向拾音、噪聲抑制、混響消除、回聲抵消、遠場語音識別、語義理解、語音播報等多項技術。技能開放平臺擁有豐富優質的AI內容資源,包括自有的10大類、100餘種原生對話技能,支持接入第三方資源和內容,如音樂、有聲、新聞、娛樂等,顯著下降了開發成本。人工智能

DuerOS的核心層是對話系統,它之因此因此可以有好的聽清、聽懂效果,主要歸功於三個方面:數據多、技術深、內容廣。所謂的數據指的是百度擁有龐大的知識圖譜、需求圖譜、網頁圖譜、地理信息圖譜及用戶畫像,技術則指的是十餘年裏百度所積累的天然語言處理、對話控制、對話管理、天然語言生成、搜索等技術,而內容指的是百度擁有的超過10000個信息垂類內容。

阿里AliGenie語音開放平臺AliGenie語音開放平臺是由阿里人工智能實驗室(AI Labs)推出,主要包括精靈技能市場、硬件開放平臺、行業解決方案三大部分,全面賦能智能家居、新制造、新零售、酒店、航空等服務場景。

圖爲AliGenie語音開發者基本構架

面向硬件品牌商和方案商,例如好比音箱、電視、玩具、OTT盒子、投影儀和汽車等,AliGenie開放平臺將提供語音交互技術、天然語言處理能力、雲服務系統、開發工具包和一站式軟硬件及量化標準。針對我的和行業應用開發者,將提供包括語音喚醒、語音識別、聲紋識別、語意理解、語音合成五大核心語音能力的開發者套件,內容提供者使用內容接入套件、便可快速建立語音技能;應用開發者使用自定義技能組件,可定製各種技能。阿里巴巴推出行業的語音解決方案天然帶有阿里的零售服務業基因。對於線下零售、航空候機、酒店客房等應用場景,AliGenie開放平臺推出了垂直行業解決方案,例如店鋪精靈,酒店精靈和航旅精靈等,這些個性化的語音助手將成爲服務業的得力助手。

騰訊雲小微語音開放平臺:騰訊雲小微於2017年騰訊「雲+將來」峯會上正式發佈,分爲三個部分,Skill開放平臺,硬件開放平臺和小微客服機器人。

圖爲騰訊雲小微基本構架

騰訊雲小微的Skill是指它爲各類各樣的設備提供智能語音對話的能力和內容;硬件開放平臺是一個能將語音交互能力輸出給第三方硬件廠商的平臺,即雲小微將語音喚醒、語音識別、語義分析、信令收發以及衆多的內置資源及服務,如音樂、天氣、導航等核心能力提供給智能音箱、智能電視、智能玩具、OTT盒子等傳統硬件領域的合做夥伴,實現用戶與設備、設備與服務之間的語音聯動能力;小微客戶機器人能夠幫助用戶提升效率,下降人力成本。用戶須要導入業務領域知識庫信息,創建機器人知識信息基礎,經過逐步調優,使得機器人機器人實現常見問題的自動應答。

做爲網絡社交的巨頭,騰訊不只擁有海量的視頻、音樂的內容資源,還擁有云端億萬用戶的資源,騰訊雲小微從一開始就拿到一副好牌。如何在平臺之爭中勝出,就且看鵝廠的戰略策略了。

傳統語音行業的科技公司

科大訊飛致力於智能語音及人工智能核心研究和產業化十八年,是國內最大的智能語音上市公司。訊飛開放平臺致力於爲開發者打造一站式智能人機交互解決方案。目前,開放平臺以「雲+端」的形式向開發者提供語音合成、語音識別、語音喚醒、語義理解、人臉識別、個性化彩鈴、移動應用分析等多項服務。

思必馳的DUI(Dialogue User Interface)開放平臺是以D-對話爲核心的一站式交互定製平臺,覆蓋多應用場景和第三方內容資源,內置語音技能庫,爲物聯網、移動互聯網和互聯網的開發者,提供單項技術服務和一站式對話交互定製解決方案。做爲一個全鏈路智能對話開放平臺,DUI提供的,不只是基於思必馳智能語音語言技術的對話功能,更包括開發者在定製對話系統時所須要的綜合服務,如GUI定製、版本管理、私有云部署等,讓開發者能夠徹底依據需求爲所欲爲定製對話交互系統。DUI開放平臺擁有青囊系統、天機系統、紫微系統、玲瓏系統四大系統。

雲知聲的開放者平臺以方案爲入口,基於特定應用場景打造智能語音交互應用的模版。例如智能電視方案、智能汽車方案、音樂搜索方案等。爲開發者提供一個智能語音交互系統的完整而便捷的開發環境。這些方案相似於一個個開發模版,開發者建立應用時能夠爲本身的應用選擇合適的方案,開發者的應用就得到了該方案中所配置的技術服務和內容服務。雲知聲是一家專業的語音交互提供商,在移動互聯網、智能家居、可穿戴設備、車載導航、醫療、教育、呼叫中心等領域有豐富的經驗。

創業公司

出門問問推出的AI開放平臺其通用版本也是向開發者和硬件廠商免費開放的。非申請或邀請制,只需登錄平臺網站註冊就可當即下載集成SDK,擁有全棧式語音交互技術整合平臺工具操做簡單,適配多場景且產品集成廠商可根據自身產品需求,自主針對各自產品進行個性化的功能開發,出門問問經過產品得到流量、數據,而產品則能得到AI技術賦能。

Rokid的開放平臺語音服務包含Rokid技能開發工具和Rokid語音接入。Rokid技能開發工具幫助開發者爲全部搭載Rokid開放服務的設備開發有趣的技能,實現用戶各式各樣的語音交互需求。Rokid語音接入可以爲配有麥克風和揚聲器的聯網硬件設備開啓Rokid開放服務所提供的智能、可擴展的語音能力。而且,其100%的硬件技術和70%的代碼將所有開源。

技術賽道難分伯仲 投資研究構建生態

語音能力的技術指標是什麼?能夠說語音識別率的高低是決定用戶體驗的最直觀的一項,而各平臺的語音識別率都能達到90%以上,所以已經難以成爲評判好壞的決定性因素。在傳統的技術領域中,專業性具備不可替代的統治地位,但如今的語音識別領域已不是一枝獨秀的時代。

科大訊飛、雲知聲、思必馳是幾家專一於語音識別技術的公司,依靠垂直語音技術領域,長期盤踞主流語音市場,擁有先發優點。這些科技創業公司在語音領域深耕多年,在業界有多年的人脈和資源的積累。人工智能時代,智能語音做爲AI最早落地的突破口,迅速成爲全球互聯網巨頭關注的焦點和角逐的戰場,因此,科大訊飛、雲知聲、思必馳也紛紛轉爲AI全棧公司。固然,也有相似聲智科技、三角獸等語音技術公司堅持定位技術方案提供商。

隨着BAT進軍AI語音領域,轉爲全棧的語音技術創業公司、傳統語音技術公司的不可替代性也受到了不可忽視的打擊做爲互聯網公司的BAT雖然入場較晚,可是不缺乏財力的投入,而且憑藉着互聯網行業的大數據等資源發展自家的人工智能技術,迅速搶佔智能語音市場。其中百度最先佈局,以「All in AI」的戰略思惟,集中火力發展AI產業,今年全資收購KITT.AI,把KITT.AI的語音能力和天然語言處理能力融入到百度平臺中;阿里也不甘落後,照搬亞馬遜模式,先推出天貓精靈,接着開放AliGenie開發者平臺;騰訊坐擁內容與社交用戶資源,一直之後後之勢切人市場,騰訊雲小微平臺的底層技術來自於擁有龐大數據的微信。

在語音產業的技術賽道上,目前,很難說哪一家擁有壓倒性的技術優點。從這個角度說,讓更多的開發者進入到本身的生態系統之中,也是開放平臺的一個重要預期。除了構建平臺,各大公司也將投資研究做爲戰略佈局的一項重要內容。好比說,百度發佈普羅米修斯計劃,將開放超大規模對話式AI數據集、鼓勵跨學科合做,並經過100萬美圓的基金用於鼓勵和培養對話式AI領域的優秀項目和人才;阿里投資達摩院佈局科研市場;思必馳也表示將撥出2億基金,用以扶持平臺上優秀的開發者、優秀應用案例和創業項目。

結語:在智能語音領域,評價的指標已經變得很是多元,實力的劃分也廣受爭議。在智能領域內的第一梯隊到底是具備先發優點科技公司?仍是佔據着雄厚資本和資源的商業巨頭?也許只有時間才能給咱們答案。

相關文章
相關標籤/搜索