論文地址:基於碼本映射的窄帶語音寬帶重建算法html
博客做者:凌逆戰git
博客地址:http://www.javashuo.com/article/p-cfiqxwdm-w.html算法
本文提出了一種從窄帶語音中重構寬帶語音的新算法,該算法有兩個新的特色。第一是基於碼本映射的頻譜包絡重構。第二是利用重構的頻譜包絡進行語音信號重構。因爲該算法無需使用任何附加的發送信息就能生成高質量的語音(盲源),因此它適用於任何網絡,如現有的電話網絡、支持模擬和ISDN服務的網絡等。該算法應用於20個說話人。經過acoustic distance measure(聲學距離測量)和listening tests confirms(聽力測試驗證)了算法的良好性能。網絡
近年來,高質量的聲音已經經過CD(小型光盤)和LDs(激光光盤)變得熟悉起來,這就提升了現有服務的音質的需求。例如,一些調幅電臺已經開始用立體聲代替單聲道廣播。這些趨勢代表,改進的質量是傳統系統或現有服務中最重要的要求之一。在電話服務方面,一個要求是提供寬帶語音而不是窄帶語音。由於寬帶語音是清晰的,而且精確地保留了說話人的身份,因此用戶能夠經過電話線更真實地交流[1][2]。app
本文提出了一種從電話語音中產生寬帶語音的方法。由於模擬電話的帶寬限制在300Hz~3.4kHz之間。該算法產生一個附加的低頻信號(50hz-300Hz)和一個高頻信號(3.4kHz-7.3kHz)。這generation基於兩個假設,一是窄帶語音與低頻帶和高頻帶信號密切相關;二是即便低頻帶和高頻帶信號不徹底正確,也能顯著提升感知語音質量。該算法的一個優勢是能夠在不增長任何額外信息的狀況下生成寬帶語音。這使得它適用於任何網絡,如現有的電話網、支持模擬和ISDN的網絡等。此外,在傳輸帶寬受限的狀況下,如在移動通訊中,它也是有效的。ide
該算法分爲兩個步驟,函數
下面解釋這兩個過程的細節性能
要從窄帶頻譜包絡中產生寬帶頻譜包絡,須要一對碼本。其中一個碼本包含寬帶頻譜包絡,另外一個碼本包含對應的窄帶頻譜包絡。寬帶頻譜包絡碼本的碼向量與窄帶頻譜包絡的碼向量具備一對一的對應關係。碼本的製做步驟以下,下面步驟中的序號對應於圖1中的數字。測試
圖1 碼本生成算法框圖編碼
圖2是生成過程的框圖,步驟以下
圖2 生成過程框圖
下面解釋低頻帶和高頻帶信號的產生。利用LPC合成技術合成了低頻信號。爲了合成高頻信號,提出了兩種方法,一種是使用LPC合成法(方法1),另外一種是使用波形造成法(方法2),圖三、4和5分別是低頻信號生成、高頻信號生成的框圖(方法1和方法2)。
低頻段語音生成
高頻帶信號生成(方法一)
高頻帶信號生成(方法二)
頻譜失真和聽覺測試評估了該算法的性能。 實驗條件如表1所示
「說話人相關」表示模型的訓練數據和測試數來自同一我的,「說話人獨立」表示不一樣的說話人。
經過使用寬帶碼本和窄帶碼原本測量頻譜失真,咱們使用了10位男性說話人和10位女性說話人。
VQ失真計算以下
(1)從寬帶語音中提取頻譜包絡
(2)使用寬帶碼本進行矢量量化(1)
(3)分別計算低頻和高頻信號(1)和(2)之間的平方偏差。偏差定義以下
$$D=\sum_{t=0}^{T^{\prime}}\left[\frac{1}{2 \pi} \int_{a}^{b}\left[10 \log _{10} \frac{\hat{Y}_{t}(\omega)}{Y_{t}(\omega)}\right]^{2} d \omega\right]^{\frac{1}{2}}$$
重建失真計算方式以下
(4)經過濾波(1)中使用的語音得到窄帶語音,並提取窄帶頻譜包絡
(5)利用窄帶碼本和寬帶碼本重構(4)輸出相對應的寬帶頻譜包絡
(6)分別計算低頻和高頻信號(4)和(5)之間的平方偏差。偏差定義見(3)
實驗結果如圖6和圖7所示。每一個失真值是全部說話人對的平均值。從結果來看,該算法能夠像矢量量化同樣精確地重建低頻譜,而且重建失真隨着碼本尺寸的增大而減少(8bit碼本會致使3.5dB的頻譜失真),在高帶寬重建方面,使用4bit碼本,重建失真的下降在6.5dB處飽和。這代表,高頻信號和窄帶語音的相關係數沒有低頻信號和窄帶語音的相關係數高。
表1:測試條件
訓練數據數目:186個單詞平衡了全部音素
分析窗函數:hamming
窗函數長度:21毫秒
幀移長度:3毫秒
LPC階數:12
FFT點的數量:512
失真度量:LPC倒譜的歐氏距離
圖6:頻譜失真(低頻段)
圖7:頻譜失真(高頻段)
進行配對比較聽力測試。基於以上結果,分別用8bit和4bit碼本對低頻和高頻信號進行了寬帶語音生成。兩名男發言人和兩名女發言人以獨立於發言者的方式受僱。隨機從三個語音集中選擇兩個語音集:電話語音、使用方法1生成的語音和使用方法2生成的語音2。六位聽衆被要求選擇一個比另外一個更寬的語音。使用了77對。
實驗結果如圖8所示。結果代表,該算法能有效地從電話語音中重建寬帶語音。就產生高頻的最佳方法而言,它們之間沒有顯著差別
圖8:偏好得分
提出了一種利用碼本映射生成窄帶語音寬帶語音的算法,並從頻譜失真的角度驗證了算法的性能,在說話人相關和獨立重構之間沒有性能差別。聽力測試證明,生成的寬帶語音質量優於原始電話語音。咱們計劃改進高頻信號的產生過程,以提升與窄帶信號的相關性
咱們感謝語音處理部門的成員進行了有價值的討論。咱們也感謝語音和聲學實驗室主任北崎駿博士和語音處理小組組長杉村博士對這項工做的持續支持。
[1] Y. Cheng, D. O'Shaughnessy, P. Mermelstein, "Statistical Re covery of Wideband Speech From Narrowband Speech, "Proceedings of ICSLP92, pp. 1577-1480,19922
[2] N. Jayant,"High-Quality Coding of Telephone ech and wideband Audio, Advances in Speech Sign cessing, pp85-108,1992
[3] M. Abe, S. Nakamura, K. Shikano, H. Kuwabara, "Voice conversion through vector quantization, "ICASSP,88, pp. 655-658,1988
[4] Y. Linde, A. Buzo, and R. M. Gray, " An algorithm for vector quantizer design, "IEEE Trans. Commun COM-28, 1, pp 8495(Jan.19805
[5] Lawrence R. Rabiner, Ronald W. Schafer "Digital Processing of Speech Signals」,