2000_narrowband to wideband conversion of speech using GMM based transformation

論文地址:基於GMM的語音窄帶到寬帶轉換html

博客做者:凌逆戰算法

博客地址:http://www.javashuo.com/article/p-vnkwxash-kh.html數據庫


摘要

  在不改變現有通訊網絡的狀況下,利用窄帶語音重建寬帶語音是一個頗有吸引力的問題。本文提出了一種從窄帶語音中恢復寬帶語音的新方法。該方法基於高斯混合模型(GMM)將輸入語音的窄帶頻譜包絡變換爲寬帶頻譜包絡,並採用聯合密度估計技術對其參數進行計算。而後利用重構後的譜包絡,利用LPC合成器對低頻和高頻語音信號進行重構。本文還提出了一種基於碼字的功率估計方法。客觀和主觀測試結果均代表,該算法優於傳統的碼本映射方法。網絡

1 引言

  在模擬電話網絡和移動通訊系統中,語音帶寬限制在300Hz - 3.4 kHz範圍內。結果,窄帶語音的音質不如寬帶語音,特別是輔音的可懂度下降。因爲人類對寬帶語音的偏好,將窄帶語音改形成寬帶語音顯得頗有吸引力。app

  窄帶到寬帶(NB到WB)語音轉換的目的是從窄帶語音中重建附加的低頻(20hz-300hz)和高頻(3.4khz-8khz)信號。重建基於兩個假設[1]。一是窄帶語音與高、低頻段信號密切相關。二是即便重構的低頻段和高頻段信號不徹底準確,也能顯著提升感知語音質量。NB到WB語音轉換的最大優勢是,它在不須要任何額外傳輸信息的狀況下生成加強的寬帶語音(盲源頻帶擴展),從而爲現有網絡提供向後兼容性。ide

  本文對NB到WB語音轉換問題進行了一些嘗試,包括基於codebook mapping (碼本映射)[1]的方法和統計方法[2]。其主要問題是寬帶頻譜包絡的重構。在碼本映射方法中,聲學空間由一組離散的模板codevector(碼矢)表示。利用窄帶碼本和寬帶碼本之間的映射關係重構寬帶頻譜包絡。該方法的侷限性在於矢量量化(VQ)過程當中對輸入窄帶譜向量的硬分類,雖然模糊VQ在必定程度上緩解了這一問題[1]。統計方法引入了統計恢復函數(SRF),它只預測基於窄帶語音的高頻段頻譜。雖然統計方法得到了良好的性能,但它須要大量的計算。函數

  衆所周知,高斯混合模型(GMM)[3]能有力的表示語音的聲學空間,並被成功地用做頻譜變換的方法,特別是在說話人轉換系統[4][5]中。因爲聲學空間的連續逼近,GMM提供了平滑的分類索引,避免了不天然的不連續性,從而優於VQ模型。所以,該算法將GMM做爲寬帶頻譜包絡重建的工具。工具

  本文組織以下。第二部分介紹了基於GMM的NB到WB語音轉換算法。第三部分給出了實驗結果,最後得出結論。性能

2 基於GMM的NB到WB語音轉換

  本文提出了一種基於GMM的窄帶語音重建方法。第一種是基於聯合密度估計的GMM的頻譜包絡重構。將窄帶譜向量轉換爲寬帶譜向量的映射函數是最小二乘迴歸估計。最小二乘迴歸估計,簡稱迴歸,是由一對訓練語音(窄帶和寬帶)獲得的。第二步是生成低頻帶和高頻帶信號。 在本文中,與碼本映射方法同樣,使用LPC合成器生成低頻帶和高頻帶語音信號[1]。測試

2.1 高斯混合模型(GMM)

設$x\in R^n$爲具備任意分佈的隨機向量。將$x$的分佈密度建模爲由Q個份量密度混合而成的高斯混合密度,表示爲:

$$公式1:
p(x | \lambda)=\sum_{i=1}^{Q} \alpha_{i} b_{i}(x), \sum_{i=1}^{Q} \alpha_{i}=1, \alpha_{i} \geq 0
$$

其中$b_i(x),i=1,...,Q$爲份量密度,$\alpha_i,i=1,...,Q$爲份量權重。每一個份量密度都是一個包含n個變量的高斯函數的形式

$$公式2:
b_{i}(x)=\frac{1}{(2 \pi)^{n / 2}\left|C_{i}\right|^{1 / 2}} \exp \left[-\frac{1}{2}\left(x-\mu_{i}\right)^{T} C_{i}^{-1}\left(x-\mu_{i}\right)\right]
$$

  $\mu_i$爲n*1個均值向量,變量$C_i$爲n*n各協方差向量。

  完整的高斯混合密度由各份量密度的均值向量、協方差矩陣和混合權重 參數化,這些參數用符號表示

$$公式3:
\lambda=\left\{\alpha_{i}, \mu_{i}, C_{i}\right\} \quad, i=1, \cdots, Q
$$

  使用GMM來表示聲學空間的兩個主要的動機:

  • 第一個是經驗觀察,一個高斯base函數的線性組合可以表明一大類樣本分佈。
  • 第二種是直觀的概念,即單個成分密度被解釋爲表明一些普遍的聲學類別。

  爲了對聲學空間分佈進行建模,必須利用訓練語音數據估計GMM的參數。有幾種估計GMM參數的技術。最經常使用的方法是極大似然(ML)估計。ML參數估計可使用衆所周知的指望最大化(EM)算法[3]迭代得到。

2.2  頻譜包絡重構

2.2.1 聯合密度估計的GMM

設$x\in R^n$爲窄帶語音的譜向量,$y\in R^n$爲原寬帶語音的譜向量。而後將向量$z=(x,y)$的聯合密度建模爲Q 2n變量高斯函數的混合。

$$公式4:\begin{array}{l}p(z|\lambda ) = \sum\limits_{i = 1}^Q {\frac{{{\alpha _i}}}{{{{(2\pi )}^n}|{C_i}{|^{1/2}}}}} \exp [ - \frac{1}{2}{(z - {\mu _i})^T}C_i^{ - 1}(z - {\mu _i})]\\\quad \quad \quad \quad \sum\limits_{i = 1}^Q {{\alpha _i}}  = 1,{\alpha _i} \ge 0\end{array}$$

其中$\alpha_i$、$\mu_i$和$c_i$表示第$i$類的先驗機率、平均向量和協方差矩陣。咱們的目標是找到一個使均方偏差最小化的映射函數F。

$$公式5:{\varepsilon _{mse}} = E[||y - F(x)|{|^2}]$$

其中$E[·]$表示指望,F(x)爲待估計的重構寬帶譜向量。

迴歸函數可使重構的寬帶頻譜矢量和原始寬帶頻譜矢量之間的均方偏差最小。

$$公式6:F(x)=E[y|x]=\sum_{i=1}^Qh_i(x)[\mu_i^y+C_i^{yx}C_i^{xx-1}(x-\mu_i^x)]$$

其中

$$公式7:{h_i}(x) = \frac{{\frac{{{\alpha _i}}}{{{{(2\pi )}^{n/2}}{{\left| {C_i^{xx}} \right|}^{1/2}}}}\exp \left[ { - \frac{1}{2}{{\left( {x - \mu _i^x} \right)}^T}C_i^{xx - 1}\left( {x - \mu _i^x} \right)} \right]}}{{\sum\limits_{j = 1}^Q {\frac{{{\alpha _j}}}{{{{(2\pi )}^{n/2}}{{\left| {C_j^{xx}} \right|}^{1/2}}}}} \exp \left[ { - \frac{1}{2}{{\left( {x - \mu _j^x} \right)}^T}C_j^{x{\rm{x}} - 1}\left( {x - \mu _j^x} \right)} \right]}}$$

其中$C _ { i } = \left[ \begin{array} { l l } { C _ { i } ^ { \infty } } & { C _ { i } ^ { \mathrm { xy } } } \\ { C _ { i } ^ { y x } } & { C _ { i } ^ { y y } } \end{array} \right]$和$\mu_i=\begin{bmatrix}\mu_i^x\\ \mu_i^y\end{bmatrix}$

加權函數$h_i(x)$表示第$i$個高斯份量生成矢量x的後驗機率。

2.2.2  訓練和參數提取

  利用以上討論的迴歸方法進行頻譜包絡重建。爲獲得最優迴歸,經過使寬帶語音經過帶通濾波器來生成窄帶語音,並提取頻譜矢量序列,如圖1所示。令$x=[x_1,x_2,...x_N]$爲窄帶語音頻譜向量序列,$y=[y_1,y_2,...,y_n]$爲寬帶語音的頻譜向量序列。經過訓練向量序列,使用EM算法估計式(4)中模型$(\alpha,\mu,C)$的參數。

圖1  GMM聯合密度參數估計過程框圖

2.2.3  碼字相關功率估計

  在NB到WB的轉換中,只需利用窄帶語音信息就能夠估計出重構後的低頻和高頻語音的功率。先前的方法使用恆定的功率比來產生低頻和高頻語音[1],但很明顯,功率比取決於聲音identity(特性)。受此啓發,本文還提出了一種與碼字相關的功率估計方法。該方法使用一對碼本。其中一個碼本包含有表明性的窄帶譜模板,另外一個碼本包含低/高頻帶語音與其窄帶版本之間的功率比。這兩個碼本也是使用一對訓練語音、窄帶和寬帶語音生成的。具體步驟以下:首先,生成窄帶頻譜矢量的碼本。而後利用窄帶譜碼本對窄帶語音訓練後的每一幀語音進行矢量量化,並將低帶寬和窄帶語音的功率比進行聚類。最後,平均每一個功率比羣集中的功率比,並將其存儲爲功率比碼本的碼字。

2.3  從窄帶語音生成寬帶語音

  圖2顯示了寬帶語音生成過程的框圖。其基本思想與[1]類似,具體步驟以下

(1)對輸入窄帶語音進行LPC分析,逐幀提取基音、功率和譜向量。

(2)利用GMM參數,經過式(6)和式(7)獲得重構的寬帶譜向量。

(3)利用分析過的基音、功率和重建的譜向量,由LPC合成器合成寬帶語音。

(4)經過帶阻濾波器提取低頻段和高頻段信號。

(5)經過分析窄帶譜向量,解碼功率比,將(4)的輸出乘以功率比。

(6)將功率補償的低頻段和高頻段語音加入到輸入窄帶語音中,獲得重構的寬帶輸出語音。

圖2  基於GMM聯合密度估計的寬帶語音生成過程框圖

3 實驗結果

  爲了評估所提算法的性能,咱們對所提算法和傳統的忙了映射算法進行了客觀語音質量測量和主觀聽力測試。實驗條件如表1所示。

  做爲使用傳統碼本映射方法的初步實驗,咱們研究了哪一種訓練數據適合語音平衡的單詞和句子數據庫之間的NB到WB語音轉換問題。結果代表,儘管詞類型數據的數據庫大小是句式數據的5倍,可是句式訓練數據的性能要好於詞類型數據。所以,咱們選擇了韓語語音平衡句子數據庫進行訓練。

  咱們還經過使用常規碼本映射方法的另外一個初步實驗,評估了所提出的碼字相關功率估計方法的性能。結果代表,使用所提出方法重建的寬帶語音與使用原始語音的寬帶語音之間沒有明顯的聽覺差別。所以,爲了將碼本映射方法與基於GMM的方法進行比較,咱們將所提出的功率估計方法應用於兩種算法。除LPC順序外,其餘實驗條件與[1]相同。在原始的碼本映射方法中,LPC的階數爲14,可是咱們將LPC的階數增長到18,以覆蓋寬帶語音中的高頻共振峯。由於在[13]中的最佳碼本大小爲128,因此咱們選擇GMM中相同數量的混合數128。

表一:實驗條件

訓練話術的數量:10句/每一個說話人

分析window:Hamming

window長度:21ms

幀移長度:3ms

LPC階數:18

VQ碼本尺寸:128

GMM的混合數目:128

距離度量:LPC倒譜的歐氏距離

  做爲一種客觀的質量度量,咱們使用平均對數譜距離度量,它被近似爲截斷倒譜距離度量。表2顯示了客觀質量測量的結果,其中「spk-dep」和「spk-ind」分別表示說話人依賴的方式和說話人獨立的方式。從表中能夠看出,不管在說話人依賴仍是說話人獨立的狀況下,提出的基於GMM的方法都優於傳統的VQ碼本映射方法。

表2:客觀質量測量結果

語音類型 方法 方式 倒譜距離
NB語音 - - 11.82dB
重建的寬帶語音 VQ spk-dep 3.27dB
GMM spk-dep 2.85dB
VQ spk-ind 3.96dB
GMM spk-ind 3.40dB

  咱們經過主觀偏好測試對算法的性能進行了評價。首先,咱們比較了重建的寬帶語音和窄帶語音。在測試以前,給聽衆們展現了窄帶和寬帶語音的例子。爲了驗證明驗的有效性,重構的寬帶語音和窄帶語音被隨機地呈如今每一個聽衆面前。在測試中,聽衆被要求判斷兩個測試話語中哪一個更清晰。當聽衆不能肯定哪個更清晰時,他們能夠選擇「無差異」。咱們還使用與上述相同的步驟,將所提出的算法所重建的寬帶語音與傳統的碼本映射算法所重建的寬帶語音進行了比較。

  實驗結果如表3所示。能夠看出,該算法重構的寬帶語音優於窄帶語音,而且在說話人依賴和說話人獨立兩方面都優於傳統的碼本映射算法。

主觀偏好測驗結果

(a)、窄帶語音與基於gmm的重組語音的比較

  NB 語音 無區別 GMM
spk-dep 10.0% 2.5% 87.5%
spk-ind 35.0% 0.0% 65.0%

(b)、VQ碼本映射法重構語音與基於gmm的方法重構語音

  VQ 無區別 GMM
spk-dep 2.5% 32.5% 65.0%
spk-ind 7.5% 27.5% 65.0%

4 總結

  提出了一種基於聯合密度估計的高斯混合模型,經過頻譜變換從窄帶語音中恢復寬帶語音的新方法。咱們還提出了一種基於碼字的功率估計方法來得到重構的低頻段和高頻段語音信號的適當增益項。客觀和主觀測試結果均代表,該算法優於傳統的碼本映射方法。雖然所提算法的結果是頗有但願的,但重建後的語音仍有必定的噪聲。正在進行的研究正在處理這個問題。

參考文獻

[1]Y. Yoshida and M. Abe, "An algorithm to reconstruct wideband speech from narrowband speech based on codebook mapping," Proc. of ICSLP 94, pp. 1591 -1 594, 1994.[2]Y. M. Cheng, D. OShaughnessy, and P. Mermelstein,"Statistical recovery of wideband speech from narrowband speech," IEEE Trans. Speech and Audio Processing, Vo1.2,no.4, pp. 544-548, Oct. 1994.[3]D. A. Reynolds and R. C. Rose, "Robust text-independent speaker identification using Gaussian mixture speaker models," IEEE Trans. Speech and Audio Processing, Vo1.3,no. 1, pp. 72-83, Jan. 1995.[4]Y. Stylianou, Harmonic plus Noise Models for Speech,Combined with Statistical Methods, for Speech and Speaker Modification, Ph.D. thesis, Ecole Nationale Superieure des Telecommunication, Paris, France, pp. 115-144, Jan. 1996.[5]A. Kain and M. W. Macon, "Spectral voice conversion for text-to-speech synthesis," Proc. of IEEE ICASSP 98, pp. 285-288,1998.

相關文章
相關標籤/搜索