語音交互是基於語音輸入的新一代交互模式,比較典型的應用場景是各種語音助手。ide
本文整理了語音交互領域經常使用的4個術語,但願能夠幫助你們更好地理解這門學科。blog
1.語音合成標記語言(SSML)開發
語音合成標記語言的英文全稱是Speech Synthesis Markup Language,這是一種基於XML的標記語言,可以讓開發人員指定如何使用文本轉語音服務將輸入文本轉換爲合成語音。it
與純文本相比,SSML可以讓開發人員微調音節、發音、語速、音量以及文本轉語音輸出的其餘屬性。class
SSML可自動處理正常的停頓(例如,在句號後面暫停片刻),或者在以問號結尾的句子中使用正確的音調。軟件
2.語音識別技術(ASR)方法
若要實現機器與人類的對話,就要通過三個步驟:聽懂、理解與回答。語音標註技術的目標就是將人類語音中的詞彙內容轉換爲計算機可讀的輸入。im
語音識別技術可分爲如下四個流程:技術
目前,手機裏的語音助手是語音識別技術最典型的應用之一。問答
3.音素(phone)
音素是根據語音的天然屬性劃分出來的最小語音單位,通俗點來講其實就是人在說話時,能發出最最最最短小、簡潔的不能再分割的發音。不一樣的音素就是不一樣的短髮音,能夠組成不一樣的長髮音,再組成詞句造成語言。
4.語音合成(TTS)
語音合成是經過機械的、電子的方法產生人造語音的技術。通俗點來講,語音合成就是讓機器模仿人類說話。即輸入一段文字,最終輸出一段語音。
語音合成技術目前主要應用在讀書軟件、導航軟件、對話問答系統等領域。