1994_An Algorithm To Reconstruct Wideband Speech From Narrowband Speech Based On Codebook Mapping

論文地址:基於碼本映射的窄帶語音寬帶重建算法html

博客做者:凌逆戰git

博客地址:http://www.javashuo.com/article/p-cfiqxwdm-w.html算法


摘要

  本文提出了一種從窄帶語音中重構寬帶語音的新算法,該算法有兩個新的特色。第一是基於碼本映射的頻譜包絡重構。第二是利用重構的頻譜包絡進行語音信號重構。因爲該算法無需使用任何附加的發送信息就能生成高質量的語音(盲源),因此它適用於任何網絡,如現有的電話網絡、支持模擬和ISDN服務的網絡等。該算法應用於20個說話人。經過acoustic distance measure(聲學距離測量)和listening tests confirms(聽力測試驗證)了算法的良好性能。網絡

引言

  近年來,高質量的聲音已經經過CD(小型光盤)和LDs(激光光盤)變得熟悉起來,這就提升了現有服務的音質的需求。例如,一些調幅電臺已經開始用立體聲代替單聲道廣播。這些趨勢代表,改進的質量是傳統系統或現有服務中最重要的要求之一。在電話服務方面,一個要求是提供寬帶語音而不是窄帶語音。由於寬帶語音是清晰的,而且精確地保留了說話人的身份,因此用戶能夠經過電話線更真實地交流[1][2]。app

  本文提出了一種從電話語音中產生寬帶語音的方法。由於模擬電話的帶寬限制在300Hz~3.4kHz之間。該算法產生一個附加的低頻信號(50hz-300Hz)和一個高頻信號(3.4kHz-7.3kHz)。這generation基於兩個假設,一是窄帶語音與低頻帶和高頻帶信號密切相關;二是即便低頻帶和高頻帶信號不徹底正確,也能顯著提升感知語音質量。該算法的一個優勢是能夠在不增長任何額外信息的狀況下生成寬帶語音。這使得它適用於任何網絡,如現有的電話網、支持模擬和ISDN的網絡等。此外,在傳輸帶寬受限的狀況下,如在移動通訊中,它也是有效的。ide

2 重建算法

  該算法分爲兩個步驟,函數

  1. 步驟一:高頻帶和低頻帶的頻譜包絡重建。利用寬帶語音集及其窄帶版本生成映射函數,映射功能將窄帶頻譜的矢量映射到寬帶頻譜的矢量空間[3]的碼書實現的。
  2. 步驟二:合成低頻帶和高頻帶信號。低頻帶信號採用線性預測編碼(LPC)來合成。在高頻帶信號合成方面,咱們考慮了LPC合成和波形疊加兩種方法,最後將高頻帶和低頻帶信號疊加到電話語音中獲得寬帶語音。

  下面解釋這兩個過程的細節性能

2.1 頻譜包絡產生

  要從窄帶頻譜包絡中產生寬帶頻譜包絡,須要一對碼本。其中一個碼本包含寬帶頻譜包絡,另外一個碼本包含對應的窄帶頻譜包絡。寬帶頻譜包絡碼本的碼向量與窄帶頻譜包絡的碼向量具備一對一的對應關係。碼本的製做步驟以下,下面步驟中的序號對應於圖1中的數字。測試

  1. 寬帶語音經過帶通濾波器生成窄帶語音
  2. 提取寬帶和窄帶語音頻譜包絡
  3. 使用LBG算法生成寬帶碼本[4]
  4. 使用寬帶碼本對寬帶語音中的語音進行矢量量化
  5. 利用時間關係,將窄帶語音的頻譜包絡進行聚類
  6. 平均每一個窄帶羣集中的頻譜包絡,而後將其存儲爲窄帶碼本的碼向量(當經過波形疊加產生高頻信號時,須要其它碼本)
  7. 選擇具備最接近每一個碼矢量頻譜包絡的寬帶波形,經過高通濾波器和帶通濾波器後,將其存儲爲表明波形

圖1  碼本生成算法框圖編碼

2.2 從窄帶語音生成寬帶語音

圖2是生成過程的框圖,步驟以下

  1. 用LPC分析輸入窄帶語音並提取基音、功率和頻譜包絡
  2. 使用窄帶碼本對每一個頻譜包絡進行矢量量化,並使用寬帶碼本對向量進行解碼
  3. 產生低頻信號。細節將在後面介紹
  4. 產生高頻信號。細節將在後面介紹
  5. 對輸入的窄帶語音進行上採樣
  6. 在(5)的輸出中加入低頻帶和高頻帶信號,產生寬帶語音

 圖2 生成過程框圖

  下面解釋低頻帶和高頻帶信號的產生。利用LPC合成技術合成了低頻信號。爲了合成高頻信號,提出了兩種方法,一種是使用LPC合成法(方法1),另外一種是使用波形造成法(方法2),圖三、4和5分別是低頻信號生成、高頻信號生成的框圖(方法1和方法2)。

低頻段產生

  1. 利用所分析的基音、功率和由寬帶碼本解碼的頻譜包絡,經過LPC進行寬帶語音合成。
  2. (1)的輸出經過低通濾波器提取低頻帶信號(在這種狀況下,咱們使用STFT分析/合成[5]做爲低通濾波器)
  3. 將(2)的輸出乘以一個常數,由於(2)的power(功率)insufficient(缺少)寬帶語音。這就產生了低頻帶信號

低頻段語音生成 

高頻帶生成(方法1)

  1. 利用寬帶碼本解碼後的基音、功率和頻譜包絡,用LPC合成寬帶信號
  2. 經過高通濾波器(1)提取高頻信號(在這種狀況下,咱們使用STFT分析/合成做爲高通濾波器)
  3. 將(2)的輸出乘以餘弦函數,以減少由LPC合成引發的脈衝,並使功率正常化。這就產生了高頻信號

 高頻帶信號生成(方法一)

高頻帶生成(方法2)

  1. 參考碼矢量索引,獲得兩個waveform(波形):一個來自窄帶表明碼本,另外一個來自高頻表明碼本。
  2. 檢查波形是否爲濁音(voiced)或清音(unvoiced)
  3. 若是是濁音,則經過基音同步重疊加法來合成窄帶語音。若是沒有濁音,則經過逐幀重疊加法合成窄帶語音
  4. 計算(3)的輸出與輸入語音之間的功率比
  5. 用與(3)相同的方法合成高頻信號
  6. 將(5)的輸出乘以功率比,獲得高頻信號。

 高頻帶信號生成(方法二)

3 性能評估

  頻譜失真和聽覺測試評估了該算法的性能。 實驗條件如表1所示

  「說話人相關」表示模型的訓練數據和測試數來自同一我的,「說話人獨立」表示不一樣的說話人。

3.1 頻譜失真評估

  經過使用寬帶碼本和窄帶碼原本測量頻譜失真,咱們使用了10位男性說話人和10位女性說話人。

  VQ失真計算以下

(1)從寬帶語音中提取頻譜包絡

(2)使用寬帶碼本進行矢量量化(1)

(3)分別計算低頻和高頻信號(1)和(2)之間的平方偏差。偏差定義以下

$$D=\sum_{t=0}^{T^{\prime}}\left[\frac{1}{2 \pi} \int_{a}^{b}\left[10 \log _{10} \frac{\hat{Y}_{t}(\omega)}{Y_{t}(\omega)}\right]^{2} d \omega\right]^{\frac{1}{2}}$$

重建失真計算方式以下

(4)經過濾波(1)中使用的語音得到窄帶語音,並提取窄帶頻譜包絡

(5)利用窄帶碼本和寬帶碼本重構(4)輸出相對應的寬帶頻譜包絡

(6)分別計算低頻和高頻信號(4)和(5)之間的平方偏差。偏差定義見(3)

  實驗結果如圖6和圖7所示。每一個失真值是全部說話人對的平均值。從結果來看,該算法能夠像矢量量化同樣精確地重建低頻譜,而且重建失真隨着碼本尺寸的增大而減少(8bit碼本會致使3.5dB的頻譜失真),在高帶寬重建方面,使用4bit碼本,重建失真的下降在6.5dB處飽和。這代表,高頻信號和窄帶語音的相關係數沒有低頻信號和窄帶語音的相關係數高。

表1:測試條件

訓練數據數目:186個單詞平衡了全部音素

分析窗函數:hamming

窗函數長度:21毫秒

幀移長度:3毫秒

LPC階數:12

FFT點的數量:512

失真度量:LPC倒譜的歐氏距離

圖6:頻譜失真(低頻段)

圖7:頻譜失真(高頻段)

3.2 聽力測試評估

  進行配對比較聽力測試。基於以上結果,分別用8bit和4bit碼本對低頻和高頻信號進行了寬帶語音生成。兩名男發言人和兩名女發言人以獨立於發言者的方式受僱。隨機從三個語音集中選擇兩個語音集:電話語音、使用方法1生成的語音和使用方法2生成的語音2。六位聽衆被要求選擇一個比另外一個更寬的語音。使用了77對。

  實驗結果如圖8所示。結果代表,該算法能有效地從電話語音中重建寬帶語音。就產生高頻的最佳方法而言,它們之間沒有顯著差別

 圖8:偏好得分

4 總結

  提出了一種利用碼本映射生成窄帶語音寬帶語音的算法,並從頻譜失真的角度驗證了算法的性能,在說話人相關和獨立重構之間沒有性能差別。聽力測試證明,生成的寬帶語音質量優於原始電話語音。咱們計劃改進高頻信號的產生過程,以提升與窄帶信號的相關性

致謝

  咱們感謝語音處理部門的成員進行了有價值的討論。咱們也感謝語音和聲學實驗室主任北崎駿博士和語音處理小組組長杉村博士對這項工做的持續支持。

參考文獻

[1] Y. Cheng, D. O'Shaughnessy, P. Mermelstein, "Statistical Re covery of Wideband Speech From Narrowband Speech, "Proceedings of ICSLP92, pp. 1577-1480,19922

[2] N. Jayant,"High-Quality Coding of Telephone ech and wideband Audio, Advances in Speech Sign cessing, pp85-108,1992

[3] M. Abe, S. Nakamura, K. Shikano, H. Kuwabara, "Voice conversion through vector quantization, "ICASSP,88, pp. 655-658,1988

[4] Y. Linde, A. Buzo, and R. M. Gray, " An algorithm for vector quantizer design, "IEEE Trans. Commun COM-28, 1, pp 8495(Jan.19805

[5] Lawrence R. Rabiner, Ronald W. Schafer "Digital Processing of Speech Signals」,

相關文章
相關標籤/搜索