語音合成:把語音波形文件重現,以一種靈活的方式,只用極少數的基礎數據,好比元音輔音的語音參數,那麼首先須要研究元音輔音的語音學性質。html
先從元音開始,根據相關資料,不一樣的元音是由相同的原始聲帶音經過不一樣的共振腔(由聲腔形狀的變化決定)產生不一樣的共振效果,致使其頻譜發生很大變化而得以區分。通常來講每一個頻譜都有三個振幅比較強的頻率區,在頻譜上呈現爲波峯狀,稱爲「共振峯」(formant),從低頻到高頻順序排列爲第一共振峯、第二共振峯和第三共振峯,簡稱爲F一、F二、F3,還能夠有F四、F5,不過與語音關係不大,所以忽略。前端
原始聲帶音的基本特色是,諧波的頻率越高,振幅就越小,頻譜的振幅曲線從高到低,造成明顯的斜坡,原始聲帶音的頻率稱爲基頻F0(疑問:原始聲帶音的頻譜圖中有多個頻率,哪個是基頻?難道都是?)ios
元音的共振峯頻率和基頻之間沒有相互依存的關係。基頻由聲帶顫動的頻率決定,共振峯頻率則取決於共振腔的形狀,兩種頻率的變化是彼此獨立的。git
要注意對頻譜圖和波形圖的對照使用:二維頻譜所表現的只是頻率和振幅的二維關係,並無包括時間因素,分析一個音段,不論切分得多麼小,都必然佔有一段時間,只有可以反映頻率、振幅、時間三維關係的頻譜,纔可以把一個音段的聲學特徵所有表現出來。好比現代語音學研究經常使用的語圖儀就是這樣一種動態頻譜儀,語圖儀輸出的語圖中,橫座標是時間,單位毫秒,縱座標是頻率,單位HZ,振幅的強弱經過圖形痕跡的濃度來表示,顏色越深,說明振幅越強,顏色越淺,說明振幅越小,振幅的單位是分貝dB。web
波形圖用來描述時域信號,橫軸爲時間(能夠直觀地看到波形週期),縱軸爲振幅;頻譜圖用來描述頻域信號,橫軸爲頻率,縱軸爲dB化的幅值,時域信號和頻域信號能夠經過FFT、IFFT算法來轉換(快速傅里葉變換和快速傅里葉變換的逆變換),有不少在時域沒法完成的信號處理算法能夠在頻域上輕鬆處理。缺點是使用FFT會出現頻譜泄露。算法
頻譜圖:數據庫
頻譜圖來自 http://www.innovateasia.com/cn/win_2008/CN321.htmwindows
語圖(下面的圖,上面那個是波形圖):數組
語圖來自 中國社會科學院語言研究所語音研究室(http://ling.cass.cn/yuyin/spectrum/spectrum.htm)緩存
文件是Windows標準的文件格式,WAV文件做爲多媒體中使用的聲波文件格式之一,它是以RIFF格式爲標準的。RIFF是英文Resource Interchange FileFormat的縮寫,每一個WAV文件的頭四個字節即是「RIFF」。WAV文件由文件頭和數據體兩大部分組成。其中文件頭又分爲RIFF/WAV文件標識段和聲音數據格式說明段兩部分。WAV文件各部份內容及格式見附表。常見的聲音文件主要有兩種,分別對應於單聲道(11.025KHz採樣率、8Bit的採樣值)和雙聲道(44.1KHz採樣率、16Bit的採樣值)。採樣率是指:聲音信號在「模→數」轉換過程當中單位時間內採樣的次數。採樣值是指每一次採樣週期內聲音模擬信號的積分值。對於單聲道聲音文件,採樣數據爲八位的短整數(short int 00H-FFH); 而對於雙聲道立體聲聲音文件,每次採樣數據爲一個16位的整數(int),高八位和低八位分別表明左右兩個聲道。WAV文件數據塊包含以脈衝編碼調製(PCM)格式表示的樣本。WAV文件是由樣本組織而成的。在單聲道WAV文件中,聲道0表明左聲道,聲道1表明右聲道。在多聲道WAV文件中,樣本是交替出現的。
WAV文件格式說明表
文件頭 | 偏移地址 | 字節數 | 數據類型 | 內 容 |
00 | H | 4 | char | "RIFF"標誌 |
04 | H | 4 | long | int 文件長度 |
08 | H | 4 | char | "WAV"標誌 |
0C | H | 4 | char | "fmt"標誌 |
10 | H | 4 | 過渡字節(不定) | |
14 | H | 2 | int | 格式類別(10H爲PCM形式的聲音數據) |
16 | H | 2 | int | 單聲道爲1,雙聲道爲2通道數 |
18 | H | 2 | int | 採樣率(每秒樣本數),表示每一個通道的播放速度 |
1C | H | 4 | long | 波形音頻數據傳送速率,其值爲通道數×每秒數據位數×每樣 本的數據位數/8。播放軟件利用此值能夠估計緩衝區的大小 |
22 | H | 2 | 每樣本的數據位數,表示每一個聲道中各個樣本的數據位數。若是有多 個聲道,對每一個聲道而言,樣本大小都同樣。 24H 4 char 數據標記符"data" 28H 4 long int 語音數據的長度 |
PCM數據的存放方式:
樣本1 樣本2
8位單聲道 0聲道 0聲道
8位立體聲 0聲道(左) 1聲道(右) 0聲道(左) 1聲道(右)
16位單聲道 0聲道低字節 0聲道高字節 0聲道低字節 0聲道高字節
16位立體聲 0聲道(左)低字節 0聲道(左)高字節 1聲道(右)低字節 1聲道(右)高字節
PCM數據的存放方式:
WAV文件的每一個樣本值包含在一個整數i中,i的長度爲容納指定樣本長度所需 的最小字節數。首先存儲低有效字節,表示樣本幅度的位放在i的高有效位上, 剩下的位置爲0,這樣8位和16位的PCM波形樣本的數據格式以下所示。
樣本大小 | 數據格式 | 最大值 | 最小值 |
8位PCM | unsigned int | 225 | 0 |
16位PCM | int | 327 | 67 |
http://210.28.216.200/cai/dmtjishu/course2/course2-1.htm#nowhere
一. 模擬音頻和數字音頻
1.模擬音頻
物體振動產生聲音,爲了記錄和保存聲音信號,前後誕生了機械錄音(以留聲機、機械唱片爲表明)、光學錄音(以電影膠片爲表明)、磁性錄音(以磁帶錄音爲表明)等模擬錄音方式,二十世紀7、八十年代開始進入了數字錄音的時代。
聲音是機械振動在彈性介質中傳播的機械波。聲音的強弱體如今聲波壓力的大小上,音調的高低體如今聲音的頻率上。聲音用電錶示時,聲音信號在時間和幅度上都是連續的模擬信號。聲音信號的兩個基本參數是頻率和幅度。頻率是指信號每秒鐘變化的次數,用Hz表示。幅度是指信號的強弱。
2.數字音頻
數字音頻主要包括兩類:波形音頻和MIDI音頻。
模擬聲音在時間和幅度上是連續的,聲音的數字化是經過採樣、量化和編碼,把模擬量表示的音頻信號轉換成由許多二進制數1和0組成的數字音頻信號。數字音頻是一個數據序列,在時間和幅度上是斷續的。
計算機內的基本數制是二進制,爲此咱們要把聲音數據寫成計算機的數據格式。將連續的模擬音頻信號轉換成有限個數字表示的離散序列(即實現音頻數字化),在這一處理技術中,涉及到音頻的採樣、量化和編碼。
二.數字音頻的採樣和量化
聲音進入計算機的第一步就是數字化,數字化實際上就是採樣和量化。連續時間的離散化經過採樣來實現,若是每隔相等的一小段時間採樣一次,稱爲均勻採樣(uniform sampling);連續幅度的離散化經過量化(quantization)來實現,把信號的強度劃分紅一小段一小段,若是幅度的劃分是等間隔的,就稱爲線性量化,不然就稱爲非線性量化。
在數字音頻技術中,把表示聲音強弱的模擬電壓用數字表示,如0.5V電壓用數字20表示,2V電壓是80表示。模擬電壓的幅度,即便在某電平範圍內,仍然能夠有無窮多個,如1.2V,1.21V,1.215V…。而用數字來表示音頻幅度時,只能把無窮多個電壓幅度用有限個數字表示。即把某一幅度範圍內的電壓用一個數字表示,這稱之爲量化。
計算機內的基本數制是二進制,爲此咱們也要把聲音數據寫成計算機的數據格式,這稱之爲編碼,模擬電壓幅度、量化、編碼的關係舉例以下表。
|
聲音數字化須要回答兩個問題:①每秒鐘須要採集多少個聲音樣本,也就是採樣頻率(fs)是多少,②每一個聲音樣本的位數(bit per sample,bps)應該是多少,也就是量化精度。
1. 採樣頻率 採樣頻率是指將模擬聲音波形數字化時,每秒鐘所抽取聲波幅度樣本的次數,採樣頻率的計算單位是kHz。一般,採樣頻率越高聲音失真越小,但用於存儲音頻的數據量也越大。 音頻其實是連續信號,或稱連續時間函數x(t)。用計算機處理這些信號時,必須先對連續信號採樣,即按必定的時間間隔(T)取值, 獲得x(nT)(n爲整數)。T稱採樣週期,1/T稱爲採樣頻率。稱x(nT)爲離散信號。離散信號 x(nT) 是從連續信號 x(t) 上取出的一部分值。 採樣定理:設連續信號x(t)的頻譜爲x(f),以採樣間隔T採樣獲得離散信號x(nT),若是知足: 當|f|≥fc時,fc是截止頻率 T≤ 1/2fc 或fc≤ 1/2T 則能夠由離散信號x(nT)徹底肯定連續信號x(t)。 當採樣頻率等於1/(2T)時,即fN =1/2T,稱fN爲奈奎斯特頻率。 採樣頻率的高低是根據奈奎斯特理論(Nyquist theory)和聲音信號自己的最高頻率決定的。奈奎斯特理論指出,採樣頻率不該低於聲音信號最高頻率的兩倍,這樣就能把以數字表達的聲音還原成原來的聲音,這叫作無損數字化(lossless digitization)。 一般人耳能聽到頻率範圍大約在20Hz~20kHz之間的聲音,根據奈奎斯特理論,爲了保證聲音不失真,採樣頻率應在40kHz左右。經常使用的音頻採樣頻率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等。 |
量化是將通過採樣獲得的離散數據轉換成二進制數的過程,量化精度是每一個採樣點可以表示的數據範圍,在計算機中音頻的量化位數通常爲四、八、1六、32位(bit)等。例如:量化精度爲8bit時,每一個採樣點能夠表示256個不一樣的量化值,而量化精度爲16bit時,每一個採樣點能夠表示65536個不一樣的量化值。量化精度的大小影響到聲音的質量,顯然,位數越多,量化後的波形越接近原始波形,聲音的質量越高,而須要的存儲空間也越多;位數越少,聲音的質量越低,須要的存儲空間越少。 採樣精度的另外一種表示方法是信號噪聲比,簡稱爲信噪比(signal-to-noise ratio,SNR),並用下式計算: SNR= 10 log [(Vsignal)2 / (Vnoise)2]=20 log (Vsignal / Vnoise) 例1:假設Vnoise=1,採樣精度爲1位表示Vsignal=21,它的信噪比SNR=6分貝。 量化採樣的過程以下:先將整個幅度劃分紅爲有限個小幅度(量化階距)的集合,把落入某個階距內的樣值歸爲一類,並賦予相同的量化值。 若是量化值是均勻分佈的,咱們稱之爲均勻量化,也稱爲線性量化。 均勻量化 若是大輸入信號採用大的量化間隔,小輸入信號採用小的量化間隔,這樣就能夠在知足精度要求的狀況下使用較小的位數來表示。數據還原時採用相同的原則。量化值是非均勻分佈的,咱們稱之爲非均勻量化,也稱非線性量化。 非均勻量化 |
記錄聲音時,若是每次生成一個聲波數據,稱爲單聲道;每次生成兩個聲波數據,稱爲雙聲道。使用雙聲道記錄聲音,可以在必定程度上再現聲音的方位,反映人耳的聽覺特性。 |
根據聲音的頻帶,一般把聲音的質量分紅5個等級,由低到高分別是電話(telephone)、調幅(amplitude modulation,AM)廣播、調頻(frequency modulation,FM)廣播、激光唱盤(CD-Audio)和數字錄音帶(digital audio tape,DAT)的聲音。在這5個等級中,使用的採樣頻率、樣本精度、通道數和數據率列於下表。
表: 聲音質量和數據率
|
通常來講,採樣頻率、量化位數越高,聲音質量也就越高,保存這段聲音所用的空間也就越大。立體聲(雙聲道)是單聲道文件的兩倍。 如:錄製1分鐘採樣頻率爲44.1KHz,量化精度爲16位,立體聲的聲音(CD音質),文件大小爲: |
三. 數字音頻的文件格式
聲音數據有多種存儲格式,這裏咱們主要介紹WAV 文件、MIDI文件。
1. WAV 文件 WAV 文件主要用在PC上,是微軟公司的音頻文件格式,又稱爲波形文件格式,它來源於對聲音模擬波形的採樣,用不一樣的採樣頻率對聲音的模擬波形進行採樣能夠獲得一系列離散的採樣點,以不一樣的量化位數把這些採樣點的值轉換成二進制數,而後存盤,就產生了聲音的WAV文件。 聲音是由採樣數據組成的,因此它須要的存儲容量很大。用前面咱們介紹的公式能夠簡單的推算出WAV文件的文件大小。 |
MIDI是Musical Instrument Digital Interface的首寫字母組合詞,可譯成「電子樂器數字接口」。用於在音樂合成器(music synthesizers)、樂器(musical instruments)和計算機之間交換音樂信息的一種標準協議。MIDI是樂器和計算機使用的標準語言,是一套指令(即命令的約定),它指示樂器即MIDI設備要作什麼,怎麼作,如演奏音符、加大音量、生成音響效果等。MIDI不是聲音信號,在MIDI電纜上傳送的不是聲音,而是發給MIDI設備或其它裝置讓它產生聲音或執行某個動做的指令。當信息經過一個音樂或聲音合成器進行播放時,該合成器對系列的MIDI信息進行解釋,而後產生出相應的一段音樂或聲音。 記錄MIDI信息的標準格式文件稱爲MIDI文件,其中包含音符、定時和多達16個通道的樂器定義以及鍵號、通道號、持續時間、音量和擊鍵力度等各個音符的有關信息。因爲MIDI文件是一系列指令而不是波形數據的集合,因此其要求的存儲空間較小。 |
WAV文件記錄的是聲音的波形,要求較大的數據空間;MIDI文件記錄的是一系列的指令,文件緊湊佔用空間小,預先裝載比WAV容易,設計播放所需音頻的靈活性較大。WAV文件可編輯性好於MIDI,音質飽滿。 WAV文件適合於: MIDI文件適合於: |
表: 常見的數字聲音文件擴展名
文件的擴展名
|
說明 |
au |
Sun和NeXT公司的聲音文件存儲格式(8位μ律編碼或者16位線性編碼) |
Aif |
Apple計算機上的聲音文件存儲格式(Audio Interchange File Format) |
ape |
Monkey's Audio |
mid |
Windows的MIDI文件存儲格式 |
mp3 |
MPEG Layer III |
rm |
RealNetworks公司的流放式聲音文件格式(RealMedia) |
ra |
RealNetworks公司的流放式聲音文件格式(RealAudio) |
voc |
聲霸卡存儲的聲音文件存儲格式(Creative Voice) |
wav |
Windows採用的波形聲音文件存儲格式 |
wrk |
Cakewalk Pro軟件採用的MIDI文件存儲格式 |
四.音頻信號的特色
音頻信號處理的特色以下:
(1) 音頻信號是時間依賴的連續媒體。所以音頻處理的時序性要求很高,若是在時間上有 25ms 的延遲,人就會感到斷續。
(2) 理想的合成聲音應是立體聲。因爲人接收聲音有兩個通道(左耳、右耳),所以計算機模擬天然聲音也應有兩個聲道,即立體聲。
(3) 因爲語音信號不只僅是聲音的載體,同時情感等信息也包含其中,所以對語音信號的處理,要抽取語意等其它信息,如可能會涉及到語言學、社會學、聲學等。
從人與計算機交互的角度來看音頻信號相應的處理以下:
(1) 人與計算機通訊(計算機接收音頻信號)。音頻獲取,語音識別與理解。
(2) 計算機與人通訊(計算機輸出音頻)。 音頻合成( 音樂合成,語音合成)、聲音定位(立體聲模擬、音頻/視頻同步)。
(3) 人—計算機—人通訊:人經過網絡,與處於異地的人進行語音通訊,須要的音頻處理包括:語音採集、音頻編碼/解碼、音頻傳輸等。這裏音頻編/解碼技術是信道利用率的關鍵。
http://www.chinaaet.com/article/index.aspx?id=14965
摘 要:從人類語音產生的機理出發,介紹了語音信號的特徵和語音信號的語譜圖,引出了語音信號的產生模型。同時討論了在語音信號產生的模型應用中,線性預測編碼方法及語音產生模型在語音合成和語音識別中的應用原理,體現了語音產生模型在語音處理技術方面的重要地位。
關鍵詞:模型;頻率;線性預測編碼
語音由一連串的音所組成,這些音及其相互間的過渡就是表明信息的符號。這些符號的排列由語音的規則所控制。對這些規則及其在人類通訊中的含義的研究屬於語言學的範疇。但對語音信號加以處理以改善或提取信息時,有必要對語音產生的機理進行討論。
圖1爲發音器官示意圖。聲道起始於聲帶的開口(即聲門處)而終止於嘴脣,它包含了咽喉(鏈接食道和口)和口(或稱爲口腔)。聲道的截面積取決於舌、脣、頜以及小舌的位置,它能夠從0 (徹底閉合)變化到約20 cm2,鼻道則從小舌開始到鼻孔爲止。當小舌下垂時,鼻道與聲道發生聲耦合而產生語音中的鼻音。另外,圖中還包含了由肺、支氣管、氣管組成的次聲門系統,這個次聲門系統是產生語音能量的源泉。當空氣從肺裏呼出時,呼出的氣流因爲聲道某一地方的收縮而受到擾動,語音就是這一系統在此時輻射出來的聲波。
語音的聲音按其激勵形式的不一樣可分爲三類:濁音、摩擦音和爆破音。濁音:當氣流經過聲門時,若是聲帶的張力恰好使聲帶發生張弛振盪式的振動,就能產生準週期的空氣脈衝,這一空氣脈衝激勵聲道獲得濁音,如音標中的「U」、「d」、「w」、「i」、「e」等爲濁音。摩擦音或稱爲清音:若是聲道在某處(通常在接近嘴的那端)發生收縮,同時迫使空氣以高速衝過這一收縮部分而產生湍流,從而獲得摩擦音,此時創建的寬帶噪聲源激勵了聲道,如音標中的「∫」就是摩擦音;爆破音:若是使聲道前部徹底閉合,在閉合後創建起氣壓,而後忽然釋放,這樣就獲得了爆破音,如音標中的「t∫」就是爆破激勵產生的。
1 語音信號的特徵和語譜圖
圖1中聲道和鼻道都表示爲非均勻截面的聲管,當聲音產生之後就順着聲管傳播,它的頻譜形狀會被聲管的選擇性所改變。這相似於人們在管風琴或管樂器中所看到的諧振現象。在此將聲道管的諧振頻率稱爲共振峯頻率。共振峯頻率和聲道的形狀與大小有關,每種形狀都有一套共振峯頻率做爲其特徵。改變聲道的形狀就產生不一樣的聲音,所以,當聲道形狀改變時,語音信號的譜特性也隨之改變。
語譜圖是經過語譜儀畫出的、以顯示語音信號的通用圖。它的垂直方向表示頻率,水平方向表示時間。圖2表示了一段英語語句的語音信號。
得到這些圖的原理大體以下:
首先把語音信號拆成短的時段,通常爲2 ms~40 ms,而後在合適的窗口長度上使用FFT找每一短時段的頻譜。圖中每一點表示在給定時間和給定頻率範圍內頻譜的能量。段的長度是根據頻率分辨率和時間分辨率要求折中選擇的。目前數字信號處理技術水平已可以實時處理語音頻譜隨時間的變化,這就意味着, FFT和顯示處理可以在下一段數據捕獲前完成。例如,採樣頻率爲8 kHz(由採樣定理知,信號帶寬的上限爲4 kHz),一段長度內有256個採樣點,FFT和顯示處理時間必須小於32 ms。
從英文字「rain」中字母a的實例代表:語音信號有周期的時域波形,如圖2(a)所示;它的頻譜相似於一串有間隔的諧波,如圖2(b)所示。一樣,字「storm」中的字母s的實例代表:摩擦音時域信號爲噪聲,如圖2(c)所示,它的頻譜如圖2(d)所示。這個頻譜證實對聲音的2個主要源都存在共振峯頻率的影響。
在圖3中,圖的下半部分是相應的語譜圖,語音能量由顏色的深淺來表示,顏色越深,語音能量越強。
由圖3可知,語音樣例「他去無錫市,我到黑龍江」的每個漢字的發音對應一組頻譜,有其基音和諧波。基音和諧波的寬度不等說明有共振峯頻率的影響。從短時穩定的頻譜存在說明語音信號存在短時間相關性,即儘管模擬聲道的數字濾波器參數是隨時間改變的,可是在很短的時間(如幾毫秒)內,因爲存在肯定的週期性頻譜,於是能夠認爲,在該段時間內,數字濾波器參數不隨時間而變化。能夠使用線性預測方法,即一個語音採樣值可以由前面若干個採樣值的組合逼近,故稱爲線性預測。所以,每個漢字語音對應一組線性預測係數,也就是對應一組肯定的聲道數字濾波器係數。
2 語音信號的產生模型
根據上面的分析,能夠用近期全部語音合成和識別技術採用的人類語音模型來模擬語音信號的產生,如圖4所示。
用隨機噪聲發生器產生噪聲源模擬摩擦音(漢語稱清音),利用音調或稱基音週期控制脈衝串產生器模擬元音(漢語稱濁音)。用增益函數表示聲音振幅。模擬聲道的數字濾波器是一個線性時變濾波器。
3 線性預測編碼(LPC)
線性預測編碼LPC( Line Predictive Coding )方法在語音信號產生模型應用中是相當重要的,下面給出它的物理概念和方法。採樣後的語音是離散信號,能夠利用Z變換進行分析計算。設聲道濾波器爲一個全極點濾波器,其傳遞函數爲V(z),則輸出信號爲:
S(z)=E(z)×V(z)=G×E(z)/A(z) (1)
式中,E(z)爲聲道濾波器的激勵e(n)的Z變換;A(z)爲聲道濾波器的逆濾波器,是全零點濾波器;G爲增益函數,表示聲音振幅的一個參數;S(z)爲合成的語音。在已知激勵和濾波器參數後,可獲得合成語音,故(1)式稱爲合成模型。由(1)式可得:
E(z)=S(z)×A(z) (2)
(2)式爲(1)式的逆運算,故稱爲語音分析模型。
若逆濾波器爲A(z),輸入語音信號爲S(z),則輸出即爲激勵信號E(z)。然而,A(z)是未知的,須要使用線性預測的方法求得。
由於A(z)是全零點濾波器,其結構如圖5所示。經過證實可得:
即A(z)是由M節濾波器組成,式中i是濾波器的階數,ai是逆濾波器的係數,有待肯定。把(3)式代入(2)式,並將Z變換的式子轉換爲離散值來寫,則有:
(4)式說明對樣本序列值S(n),n時刻序列值由它前面M個樣本線性預測獲得。即:
同時表示,激勵信號e(n)是語音信號S(n)與預測信號之差,稱爲預測偏差。(5)式可寫爲Z變換形式:
式中,F(z)爲預測濾波器值,若輸入A(z),輸出即爲預測值,見圖5。
可見,這裏存在2個濾波器,1個是預測濾波器F(z),可用來求預測值;另外一個爲逆濾波器,它等於1-F(z),可用來從激勵信號求出重建的語音信號。使用這2個濾波器關鍵是求係數ai。利用公式(4),預測偏差e(n)越小,預測值越接近信號值S(n)。可採用e(n)的最小均方偏差準則來肯定ai的係數。若S(n)已知,在短期範圍內(如20 ms),在8 kHz採樣頻率下就有160個S(n)樣本點,利用它來訓練預測濾波器A(z),係數ai就能夠肯定。係數ai是時變的,但在短的時限內是不變的。所以,在線性預測算法中,係數ai的計算每幀都要進行1次,當前幀係數ai計算值做爲下一次計算時用。
4 語音產生模型的應用
語音產生模型說明一個短時的語音信號能夠用3個參數來定義:(1)從週期性波和隨機噪聲中選擇1個做爲激發態;(2)若是使用週期性波,必須選擇1個頻率做爲基音;(3)模擬聲道響應所使用的數字濾波器係數。
4.1 語音產生模型在語音合成技術中的應用
早期產品中應用到的連續語音合成技術,是藉助於大約以每秒40次速度修改上述的短時語音信號的3個參數來實現的。如適合兒童學習的「說和拼音機」。因爲它僅僅採用26個英文字母做爲音庫,於是這種語音合成的聲音質量不高,聲音很是機械。
此後,用漢字語音做爲庫,用波形拼接方法進行語音合成,效果有所改進,可是庫的存儲量太大。解決的方案是,使用語音分析方法,即利用語音產生模型概念,把一個語音信號分解成下列特性參數:線性預測系數(取10個)、基音週期範圍、基音週期數目(基音持續時間)和清音存在時間等。根據ITU-T G.729語音編碼方法,一幀語音信號特徵參數僅需80 bit,即80個16 bit樣本壓縮爲80 bit,縮小16倍。到合成須要該音時,再利用語音產生模型由所存的特徵參數實時轉換爲語音。
4.2 語音產生模型在語音識別技術中的應用
與機器進行語音交流,讓機器明白你說什麼,這是人們長期以來求之不得的事情。語音識別技術就是讓機器經過識別和理解過程把語音信號轉變爲相應的文本或命令的技術。其原理是:因爲每個短時語音信號包含一串語音特性參數,不一樣的漢字音有不一樣的特徵參數,因此利用特徵參數的差異來識別不一樣的漢字音。
近20年來,語音識別技術取得顯著進步,開始從實驗室走向市場。預計將來10年內,語音識別技術將進入工業、家電、通訊、汽車電子、醫療、家庭服務、消費電子產品等各個領域。
參考文獻
[1] 拉賓納 L R,謝弗 R W. 語音信號數字處理[M]. 北京:科學出版社,1983.
[2] 戴逸民,梁曉雯,裴小平. 基於DSP的現代電子系統設計[M]. 北京:電子工業出版社,2002.
[3] 奧本海姆. 信號與系統[M]. 劉樹棠,譯 . 西安:西安交通大學出版社,1998.
[4] 何蘇勤,王忠勇.TMS320C2000系列DSP原理及應用技術[M].北京:電子工業出版社,2003.
http://www.innovateasia.com/cn/win_2008/CN321.htm
Profile - CN321 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CN321基於語音識別及RFID的多重安防門禁監控系統廣西師範大學物理與電子工程學院 |
Advisor
Members
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Project Paper1. 設計概述 (Preliminary Paper)
2. 功能描述 (Final Project Paper)
3. 性能參數 (Final Project Paper)
4. 設計結構 (Preliminary Paper)
5. 設計方法 (Final Project Paper)
6. 設計特色 (Preliminary Paper)
7. 總結 (Final Project Paper)
|