AIUI 是科大訊飛2015年推出的一套以語音爲核心的人機交互解決方案,意在令人機交互中的計算機可以快速具有能聽會說,能理解會思考的能力。搭載了 AIUI 的智能硬件能夠輕鬆實現查詢天氣、播放音視頻資源、設置鬧鐘以及控制智能家居等能力。AIUI 的語義理解不只提供了基本的問答,還提供了一套開發任務型對話的解決方案,開發者能夠經過在平臺編寫自定義技能,實現自身業務的語義理解。實現諸如商場導購、自助點菜、智能客服等功能。性能
相信你們在生活中也使用過這裏所說的 AIUI,就是你手機上的語音助手,你能夠跟他聊天,能夠用語音對話的方式,去查詢今天的天氣,去導航,去聽新聞等等。而這一切實現的方式都是你用語言去直接詢問他。不用手動去查詢,這在生活上大大的提升了咱們的便利。視頻
科大訊飛是一個已經成熟的產品了,不少技能是能夠在後臺自定義的,相比阿里會好不少。可是因爲咱們應用的調用次數已經到達了上線,致使要收費,因此咱們選擇了阿里的開放平臺。真的有好多好多的坑。對象
接下來咱們開看下語音識別的主要幾個技術 ASR/NLU/VAD。blog
ASR 是自動語音識別技術(Automatic Speech Recognition)是一種將人的語音轉換爲文本的技術。語音識別是一個多學科交叉的領域,它與聲學、語音學、語言學、數字信號處理理論、信息論、計算機科學等衆多學科緊密相連。因爲語音信號的多樣性和複雜性,語音識別系統只能在必定的限制條件下得到滿意的性能,或者說只能應用於某些特定的場合。語音識別系統的性能大體取決於如下4類因素:1. 識別詞彙表的大小和語音的複雜性;2. 語音信號的質量;3. 單個說話人仍是多說話人;4. 硬件。資源
NLU 是天然語言理解 (Natural Language Understanding),簡稱NLU。 在天然語言理解以前還包含一個天然語言處理這個步驟,天然語言處理,是 (Natural Language Processing),簡稱 NLP。開發
歸納來講,NLP,除了NLU(圖中紅框部分),還包含理解以前的處理階段、和理解以後的應用階段。也就是說,NLU是NLP的子集——他們不是並集、更不是等價的概念。這裏,是不少AI從業人員都容易混淆的,你們能夠先記住這個概念關係:NLU是NLP的子集。產品
VAD,也就是語音端點檢測技術,是Voice Activity Detection的縮寫。這個技術的主要任務是從帶有噪聲的語音中準確的定位出語音的開始和結束點,由於語音中含有很長的靜音,也就是把靜音和實際語音分離開來,由於是語音數據的原始處理,因此VAD是語音信號處理過程的關鍵技術之一。它的好壞,直接影響成敗,因爲技術自己的特殊性,因此在涉及語音信號處理的領域,端點檢測技術的應用很是普遍。語音識別系統在識別或者聲學模型訓練階段所遇到的第一個技術就是端點檢測,把靜音和噪聲做爲干擾信號從原始數據中去除,而且端點檢測對於語音識別系統的性能相當重要。一個語音識別的產品這三個是技術是很是重要的。it