TOP100summit 2017:亞馬遜Echo音箱可以語音識人,華人工程師揭祕設計原理

2017年,人工智能的消費產品落地聚焦在了智能音箱上,谷歌、亞馬遜紛紛推出智能音箱產品,國內的阿里巴巴推出天貓精靈,小米推出小米AI音箱。智能音箱經過語音能夠發出指令,將來可能成爲智能家居的入口,經過語音控制家裏的其餘智能設備。算法

圖片描述

幾個月前谷歌的語音識別應用推出支持個性化語音識別功能,而本週三,也就是10月11日,亞馬遜的Echo音箱也具有了這項功能。segmentfault

當不一樣的人對着音箱說話時,能夠自動識別身份,提供好比我的專屬的音樂播放列表、個性化購物等功能。總之,能夠經過聲音來識別人,讓語音控制更進一步。機器學習

亞馬遜Echo音箱背後是亞馬遜的Alexa智能語音技術,陳亞是一位華人工程師,是亞馬遜Alexa機器學習團隊的資深工程師,負責語音識別、語義理解模型的搭建及優化。關於Alexa的技術內涵壹佰案例特地與陳亞進行了交流。分佈式

圖片描述

語音識人的技術原理工具

若是在不少人的空間裏,讓Alexa知道是誰在說話,使用的是鉚釘語音檢測的思路,開始經過Alexa來喚醒系統,使用一個RNN從中提取錨定嵌入,記錄語音特徵,接下來用另外一個RNN從後續的請求語句中提取語音特徵,基於此獲得一個端點決策。學習

陳亞介紹,Alexa是首個經過語音指令驅動的AI語音助理軟件,只須要呼叫「Aleca」,就能夠對已經鏈接數百個應用的Alexa下達工做指令,好比播放音樂、查找資料、啓動其餘智能設備或者購物等。優化

如今Alexa並不僅是一個語音識別工具,已經變成了一個很成熟的操做系統,將來有可能取消傳統的手機屏幕,經過語音就能夠進行操做。人工智能

圖片描述

Alexa的深度學習技術原理spa

Alexa的開發進行了大規模的深度學習,一我的成長到16歲耳朵聽聲音的時間大概只有14016小時,而Alexa的深度學習是將幾千個小時的真實語音訓練數據存儲到S3中,使用EC2雲上的分佈式GPU集羣來訓練深度學習模型。操作系統

在訓練模型方面,Alexa使用幾個逼近算法減小更新規模,隨着GPU線程的增長,訓練速度也會加快,每一秒能夠處理大約90分鐘的語音。人耳16年能夠聽1.4萬個小時的語音,而Alexa使用3小時就能夠完成。

Alexa的語音識別系統主要包括信號處理、聲學模型、解碼器以及後處理等4大模塊,首先將收集的聲音進行信號處理,再將語音信號轉化到頻域,從10毫秒的語音中提取特徵向量提供給聲學模型,聲學模型負責把音頻分紅不一樣的音素,解碼器能夠得出機率最高的一串詞串,通過後處理把單詞組合成容易讀取的文本。

圖片描述

Alexa與其餘語音識別應用的優點

陳亞介紹到,Alexa之因此可以佔據終端市場70%的市場份額,是由於亞馬遜客戶至上的文化信仰。Alexa可以取得成功,是由於從產品設計到開發管理模式等方面都堅持客戶至上的原則,進行用戶體驗革新,下降智能家居門檻,創建Alexa生態。

即將在11月9日開幕的第六屆TOP100全球軟件案例研究峯會上,陳亞將以分享嘉賓的身份出席,從產品設計的角度分享亞馬遜用戶至上理念引導的產品設計思路,以及亞馬遜對人工智能和機器學習的探索經驗。點擊進入TOP100官網查看會議信息。

相關文章
相關標籤/搜索