現在的科技在各個方面的發展都很是的迅速,愈來愈多「不切實際」的幻想也在被實現!而做爲現代人信息獲取以及溝通需求最爲方便快捷的路徑-智能語音,這條路就擺在咱們面前。機器學習
演講嘉賓:
盛京,阿里雲達摩院-機器智能技術專家工具
達摩院語音組成立於2014年,具備語音識別、語音合成、聲紋識別、天然語言處理、語音交互等等的能力。學習
如下內容根據演講嘉賓視頻分享以及PPT整理而成。優化
本次主要內容分爲四部分:
一.公共雲方案
二.智能語音本地化部署方案
三.智能互動大屏
四.語音自學習平臺阿里雲
在公共雲方面,服務於集團34個BU,107個業務,包括手淘、支付寶、菜鳥、釘釘、口碑、高德、UC、優酷土豆、天貓精靈等;除了內部外,還有映客直播、一號互聯等用戶。spa
從2014年手淘上線後,咱們的語音識別覆蓋了各類各樣的場景。這裏面有單純的手機APP,也有車載,包括18年的時候,包括地鐵經過語音購票、甚至最新款的汽車。3d
給你們具體介紹下,服務於客服方面,咱們是如何利用智能語音能力的? cdn
在智能客戶領域,咱們兩個最典型的的案例就是支付寶95188和菜鳥的1518。
支付寶是一個呼入的場景,他是一個電話的、智能的客服。你們若是有打過支付寶電話的必定知道,打完以後,電話另外一方會說「請用一句話來描述您的問題」。這時候您能夠說:「個人密碼忘了」,這時候會有機器人和你對話,告訴你具體的方法。這個就是支付寶電話客服的應用場景。視頻
那麼呼出場景,就是菜鳥的智能語音助手,去年雙11的時候,我本人就接到過菜鳥打來的電話,他會說:先生,您的某某快遞放在小區的蜂站了。若是您說能夠,他會禮貌的掛機;若是您說不能夠的,他會問你:先生,您何時在家,我會把快遞給您送過去等等。blog
這兩個應用都節省了大量的人力,在雙11時,支付寶智能客服自主率達到了97%;菜鳥機器人替200W快遞員打電話。在過去11快遞員工做主要就是打電話,如今經過菜鳥助手,就能解決絕大多數問題。
除了剛剛介紹的公共雲的狀況,咱們在本地化部署上也有不少應用的場景。
咱們提供的主要是一套軟件,有能力的開發公司能夠把咱們語音的能力集成到大家的產品中,這樣咱們能夠共同深刻打造各行各業各個場景下的解決方案。
咱們提供的能力包括 語音識別、語音合成、MRCP、防串音、最重要的還有語音自學習平臺。
咱們最主要的是聚焦於語音的核心能力,緊靠行業夥伴,咱們是一塊兒打造產品的。
咱們和友商的區別主要是:友商作語音產品都是端對端的,全部東西都是本身作;而咱們只作最核心的,語音識別或者語音合成。而後把能力開放出來,讓合做夥伴基於這樣的能力來作各類各樣的應用。
咱們本地化部署方案的標杆是有:智慧法院的一個解決方案,目前咱們深度合做了法院領域頭部的ISV,包括了華宇、雲嘉等等。
咱們標杆案例有浙江高院、福建高院等等,覆蓋了300家法院,有超過1萬家法庭應用了咱們語音識別。
這是咱們在法院的一些場景,所作的一些事情。同時全國的幾大互聯網法院,包括第一家杭州互聯網法院,北京、廣州互聯網法院,用的都是咱們的語音識別。
在智能客服領域,咱們聯合阿里小蜜,和ISV爲中國移動、中國平安作了智能電話機器人、外呼以及金牌話術。
金牌話術仍是要再提一下,在客服領域,不一樣人的交流溝通能力也不同的,反饋到結果上就是有的人業績比較好,有的人差一些。咱們金牌話術要作的就是:基於客服和客戶的聊天,來把溝通弄技巧挖掘出來。每當你和客戶交流的時候,就會提示你應該怎麼說,應該作什麼樣的引導。
除了剛纔介紹的客服和司法,咱們還有達摩院全球獨創多模態語音交互方案,可以實如今強噪音環境下的免喚醒人機交互。
好比說在公共空間,地鐵購票、肯德基點餐,都可以經過咱們這套解決方案實現人機交互,咱們這個產品的優點,就是強噪音語音環境下的語音識別、同時免喚醒、以及長句子的流失理解。
這套語音交互產品模式就是:咱們提供軟硬件一體的套件,再加上定製的外殼,咱們有一個官方標準的,合做夥伴也能夠根據各類需求來定製,以後咱們就能夠對接到客戶的系統裏面。
這時候就能有各行各業的應用,好比對接客戶的支付系統。圖書管理系統、導航系統。
這套方案的標杆案例就是:上海地鐵語音售票機。
• 2018年3月已正式落地上海南站和漢中路地鐵站
• 全球第一臺地鐵語音售票機
• 在地鐵真實嘈雜環境下語音識別準確率超過96%
最後咱們來介紹下—語音自學習平臺。
之因此提供語音自學習平臺,是由於咱們在與客戶接觸中,聽到客戶不少對語音識別的建議。首先語音識別是一個非標輸出的軟件,部署到客戶現場的時候,可能因爲麥克風、口音等等,致使識別率很差;或者領域不匹配,好比客戶有一些專業的用語,咱們本身的模型可能覆蓋不到。
因此我咱們提供了語音自學習平臺。獨特優點主要在於:能夠經過自助來添加語料的方式來進行優化,能夠輸入詞、句子、篇章,具有分鐘級的訓練速度,並且操做很簡單,能夠一鍵式完成。
語音自學習平臺主要包括三部分:
泛熱詞
北京女子圖片→北京女子圖鑑
類熱詞(人名、地名等)
原告以不該選公司→原告與布衣軒公司
咱們能夠看到,若是你不作任何的優化,很容易出現各類混淆錯誤。
定製化語言模型
提供的是整個的篇章,好比說有些公司有內部的材料,好比說客服行業,咱們可能有一些產品介紹、文檔之類的,都是長篇的文本,咱們就能夠定製化語言模型來優化。
以上就是咱們今天講的主要內容,你們若是有興趣能夠持續關注咱們!
1. 語音產品收費
公有云都是支持免費試用的,按照文檔一步步操做,就能夠建立本身的語音識別程序。
點擊試用
2. 咱們語音有哪些類型?
a) 實時語音識別:實時反饋結果
b) 一句話識別:應用在搜索的場景下
c) 錄音文件轉寫:相較於實時語音識別,速度很快
3.教育行業有哪些語音場景?
在過去,咱們沒法落實每堂課的知識點,若是有了智能語音,咱們能夠把老師講的內容所有轉成文字,再經過必定的質檢規則來判斷老師是否作到位了;同時相似於兒童學英語行業,口語評測之類的也會有一些需求。
一站式開發者服務,海量學習資源0元起!
阿里熱門開源項目、機器學習乾貨、開發者課程/工具、小微項目、移動研發等海量資源;更有開發者福利Kindle、技術圖書幸運抽獎,100%中--》【阿里雲】開年Hi購季,開發者會場
本文爲雲棲社區原創內容,未經容許不得轉載。