泡沫下的破浪者，智能語音產品到底落地何處？

時間 2019-11-12

標籤泡沫破浪智能語音產品到底落地何處简体版

原文原文鏈接

前言：

現在的科技在各個方面的發展都很是的迅速，愈來愈多「不切實際」的幻想也在被實現！而做爲現代人信息獲取以及溝通需求最爲方便快捷的路徑-智能語音，這條路就擺在咱們面前。機器學習

演講嘉賓：
盛京，阿里雲達摩院-機器智能技術專家工具

達摩院語音組成立於2014年，具備語音識別、語音合成、聲紋識別、天然語言處理、語音交互等等的能力。學習

如下內容根據演講嘉賓視頻分享以及PPT整理而成。優化

本次主要內容分爲四部分：
一．公共雲方案
二．智能語音本地化部署方案
三．智能互動大屏
四．語音自學習平臺阿里雲

1、公共雲方案

在公共雲方面，服務於集團34個BU，107個業務，包括手淘、支付寶、菜鳥、釘釘、口碑、高德、UC、優酷土豆、天貓精靈等；除了內部外，還有映客直播、一號互聯等用戶。spa

從2014年手淘上線後，咱們的語音識別覆蓋了各類各樣的場景。這裏面有單純的手機APP，也有車載，包括18年的時候，包括地鐵經過語音購票、甚至最新款的汽車。3d

給你們具體介紹下，服務於客服方面，咱們是如何利用智能語音能力的？ cdn

在智能客戶領域，咱們兩個最典型的的案例就是支付寶95188和菜鳥的1518。
支付寶是一個呼入的場景，他是一個電話的、智能的客服。你們若是有打過支付寶電話的必定知道，打完以後，電話另外一方會說「請用一句話來描述您的問題」。這時候您能夠說：「個人密碼忘了」，這時候會有機器人和你對話，告訴你具體的方法。這個就是支付寶電話客服的應用場景。視頻

那麼呼出場景，就是菜鳥的智能語音助手，去年雙11的時候，我本人就接到過菜鳥打來的電話，他會說：先生，您的某某快遞放在小區的蜂站了。若是您說能夠，他會禮貌的掛機；若是您說不能夠的，他會問你：先生，您何時在家，我會把快遞給您送過去等等。blog

這兩個應用都節省了大量的人力，在雙11時，支付寶智能客服自主率達到了97%；菜鳥機器人替200W快遞員打電話。在過去11快遞員工做主要就是打電話，如今經過菜鳥助手，就能解決絕大多數問題。

2、智能語音本地化部署方案

除了剛剛介紹的公共雲的狀況，咱們在本地化部署上也有不少應用的場景。
咱們提供的主要是一套軟件，有能力的開發公司能夠把咱們語音的能力集成到大家的產品中，這樣咱們能夠共同深刻打造各行各業各個場景下的解決方案。
咱們提供的能力包括語音識別、語音合成、MRCP、防串音、最重要的還有語音自學習平臺。

咱們最主要的是聚焦於語音的核心能力，緊靠行業夥伴，咱們是一塊兒打造產品的。
咱們和友商的區別主要是：友商作語音產品都是端對端的，全部東西都是本身作；而咱們只作最核心的，語音識別或者語音合成。而後把能力開放出來，讓合做夥伴基於這樣的能力來作各類各樣的應用。

咱們本地化部署方案的標杆是有：智慧法院的一個解決方案，目前咱們深度合做了法院領域頭部的ISV，包括了華宇、雲嘉等等。

咱們標杆案例有浙江高院、福建高院等等，覆蓋了300家法院，有超過1萬家法庭應用了咱們語音識別。

這是咱們在法院的一些場景，所作的一些事情。同時全國的幾大互聯網法院，包括第一家杭州互聯網法院，北京、廣州互聯網法院，用的都是咱們的語音識別。

在智能客服領域，咱們聯合阿里小蜜，和ISV爲中國移動、中國平安作了智能電話機器人、外呼以及金牌話術。

金牌話術仍是要再提一下，在客服領域，不一樣人的交流溝通能力也不同的，反饋到結果上就是有的人業績比較好，有的人差一些。咱們金牌話術要作的就是：基於客服和客戶的聊天，來把溝通弄技巧挖掘出來。每當你和客戶交流的時候，就會提示你應該怎麼說，應該作什麼樣的引導。

3、智能互動大屏

除了剛纔介紹的客服和司法，咱們還有達摩院全球獨創多模態語音交互方案，可以實如今強噪音環境下的免喚醒人機交互。
好比說在公共空間，地鐵購票、肯德基點餐，都可以經過咱們這套解決方案實現人機交互，咱們這個產品的優點，就是強噪音語音環境下的語音識別、同時免喚醒、以及長句子的流失理解。
這套語音交互產品模式就是：咱們提供軟硬件一體的套件，再加上定製的外殼，咱們有一個官方標準的，合做夥伴也能夠根據各類需求來定製，以後咱們就能夠對接到客戶的系統裏面。
這時候就能有各行各業的應用，好比對接客戶的支付系統。圖書管理系統、導航系統。

這套方案的標杆案例就是：上海地鐵語音售票機。
• 2018年3月已正式落地上海南站和漢中路地鐵站
• 全球第一臺地鐵語音售票機
• 在地鐵真實嘈雜環境下語音識別準確率超過96%

上海地鐵語音售票機介紹視頻點擊播放

4、語音自學習平臺

最後咱們來介紹下—語音自學習平臺。
之因此提供語音自學習平臺，是由於咱們在與客戶接觸中，聽到客戶不少對語音識別的建議。首先語音識別是一個非標輸出的軟件，部署到客戶現場的時候，可能因爲麥克風、口音等等，致使識別率很差；或者領域不匹配，好比客戶有一些專業的用語，咱們本身的模型可能覆蓋不到。

因此我咱們提供了語音自學習平臺。獨特優點主要在於：能夠經過自助來添加語料的方式來進行優化，能夠輸入詞、句子、篇章，具有分鐘級的訓練速度，並且操做很簡單，能夠一鍵式完成。
語音自學習平臺主要包括三部分：

泛熱詞
北京女子圖片→北京女子圖鑑

類熱詞（人名、地名等）
原告以不該選公司→原告與布衣軒公司
咱們能夠看到，若是你不作任何的優化，很容易出現各類混淆錯誤。

定製化語言模型
提供的是整個的篇章，好比說有些公司有內部的材料，好比說客服行業，咱們可能有一些產品介紹、文檔之類的，都是長篇的文本，咱們就能夠定製化語言模型來優化。

以上就是咱們今天講的主要內容，你們若是有興趣能夠持續關注咱們！

下面是咱們的QA環節：

1. 語音產品收費
公有云都是支持免費試用的，按照文檔一步步操做，就能夠建立本身的語音識別程序。
點擊試用
2. 咱們語音有哪些類型？
a) 實時語音識別：實時反饋結果
b) 一句話識別：應用在搜索的場景下
c) 錄音文件轉寫：相較於實時語音識別，速度很快

3.教育行業有哪些語音場景？
在過去，咱們沒法落實每堂課的知識點，若是有了智能語音，咱們能夠把老師講的內容所有轉成文字，再經過必定的質檢規則來判斷老師是否作到位了；同時相似於兒童學英語行業，口語評測之類的也會有一些需求。

一站式開發者服務，海量學習資源0元起！

阿里熱門開源項目、機器學習乾貨、開發者課程/工具、小微項目、移動研發等海量資源；更有開發者福利Kindle、技術圖書幸運抽獎，100%中--》【阿里雲】開年Hi購季，開發者會場

原文連接

本文爲雲棲社區原創內容，未經容許不得轉載。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。