題名:一種用於語音帶寬擴展的深度神經網絡方法html
做者:Kehuang Li;Chin-Hui Lee網絡
2015年出來的架構
本文提出了一種基於深度神經網絡(DNN)的語音帶寬擴展(BWE)方法。利用對數譜功率做爲輸入輸出特徵進行所需的非線性變換,訓練神經網絡來實現這種高維映射函數。在10小時的大型測試集上對該方法進行評估時,咱們發現與傳統的基於高斯混合模型(GMMs)的BWE相比,DNN擴展語音信號在信噪比和對數譜失真方面具備很好的客觀質量度量。在假定相位信息已知的狀況下,主觀聽力測試對DNN擴展語音的偏心度爲69%,對GMM的偏心度爲31%。對於實際運行中的測試,當相位信息從給定的窄帶信號imaged(成像)時,首選項的比較上升到84%,而不是16%。正確的相位恢復能夠進一步提升該方法的BWE性能。app
關鍵詞:深度神經網絡,語音帶寬擴展,頻譜映射,相位估計框架
將語音帶寬從窄帶(4khz帶寬)擴展到寬帶(8khz帶寬)已經研究了幾十年,由於帶寬在早期是一種昂貴的資源。即便如今語音傳輸的帶寬再也不受到緊張的限制,咱們在現有的公共交換電話網(PSTN)系統中仍然面臨着低帶寬的限制。爲了提升語音在PSTN上的收聽質量,人們一直在努力人爲地擴展帶寬。ide
早期對帶寬擴展(BWE)的研究多集中於估計高頻帶的頻譜包絡線,利用低頻帶產生的激勵恢復高頻頻譜[1]。早期工做探討了線性映射[2]、分段線性映射[3,4]、碼本映射[5,6]、神經網絡[7,8]、高斯混合模型[9,10]、隱馬爾可夫模型[11,12]和非負隱馬爾可夫模型[13]等技術。線性預測係數(LPCs)或線譜頻率(LSFs)[14,15]被普遍用於表示頻譜包絡,而激勵能夠經過LPCs對信號進行反濾波、調製技術、非線性處理以及函數生成器[1]的應用來發現。函數
與包絡估計方法相比,因爲創建原始低頻頻譜和目標高頻頻譜映射函數的的維度都很高,所以對缺失高頻頻譜的直接估計沒有獲得普遍的研究。然而,目前仍有一些研究,如摺疊頻譜調整[8]和稀疏機率狀態映射[16]。前者對窄帶頻譜進行摺疊,調整寬帶頻譜的水平,嘗試以不一樣的方式估計頻譜包絡線。後者假設映射的傳輸矩陣是稀疏的,這一般是不許確的。然而,這些技術代表,直接估計缺失帶的頻譜具備必定的優點,值得進一步研究。工具
綜上所述,咱們建議使用DNN進行頻譜映射來估計缺失的高頻頻譜。在10小時的大型測試集上進行的實驗代表,與傳統的基於GMM的映射技術相比,提出的DNN框架在分段信噪比[17]和對數譜失真[18]方面具備更好的客觀測量效果。主觀偏好聽力測試也給出69%的分數超過31%的gmm擴展語音,當相位信息是已知的。對於實際運行測試,當相位信息從給定的窄帶信號成像時,首選項的比較上升到84%,而不是16%。正確的相位恢復能夠進一步提升所提出的DNN方法的BWE性能。post
圖1 提出的DNN-BWE系統框圖性能
圖2 特徵提取和波形重建的流程圖
圖1給出了基於DNN的BWE系統的框圖。給定一個寬帶語音信號x,咱們將其加窗口獲得重疊幀,並在加窗後的語音幀上執行短時傅里葉變換(STFT) [19],
$$公式1:X(l,k)=\sum_{n=0}^{N-1}x(l*\Delta +n)h(n)e^{\frac{-j2\pi nk}{N}}$$
其中$l$爲幀索引,$k=0,...,L-1$爲離散頻率索引,$\Delta$爲窗移,N爲窗長,$h(·)$爲窗函數,這裏爲漢明窗。咱們將在文章的其他部分省略$l$,由於咱們將重點放在每幀語音的特徵上。提取對數譜功率值[20]
$$公式2:X^M(k)=In|X(k)|^2$$
由於$x$是一個真實信號,$X$是共軛對稱的,僅由$\frac{N}{2}+1$點決定。所以,咱們使用$k=0,...,\frac{N}{2}$的$X^M(k)$做爲特徵。對於寬帶信號,進一步將$X^M$分爲低頻譜$X_L^M=[X^M(0),...,X^M(\frac{N}{4})]$,高頻譜$X_H^M=[X^M(\frac{N}{4}+1),...,X^M(\frac{N}{2})]$,其中$X_H^M$由DNN根據窄帶(低頻)譜恢復。
除傅里葉係數的大小外,相位信息提取以下
$$公式3:X^P(k)=\angle X(k)$$
對於寬帶信號,將$X^P$按其對應的$X^M$大小分別分解爲$X_L^P$和$X_H^P$。
對寬帶信號$x$進行濾波和降採樣,獲得窄帶信號對應的對數譜幅值和相位$z$,$Z^M$和$Z^P$。
如圖3所示,DNN的輸入爲窄帶信號的對數譜,輸出爲寬帶信號的高頻對數譜。爲了保證神經網絡的正常工做,對全部訓練樣本的神經網絡輸入輸出的各個維度進行歸一化處理,保證其均值爲零,方差爲1。所以,在帶寬擴展的應用階段,須要對輸入特徵向量執行相同的歸一化操做,對輸出執行相反的操做。
咱們使用Kaldi工具包[21]來訓練DNNs。首先對受限玻爾茲曼機(RBM)進行無監督預訓練。而後,在判別微調中,採用最小均方偏差準則(MMSE),試圖使預測的高頻對數譜與指望寬帶信號的真實高頻對數譜之間的歐氏距離最小化。設Y爲DNN的輸出,MMSE的目標函數爲
$$公式4:min\frac{1}{2}||(X_H^M-\mu_H)\sum_H^{-1}-Y||_2^2$$
其中$\mu_H$和$\sum_H^{-1}$爲訓練數據全部高頻對數譜的均值向量和對角逆協方差矩陣。
圖3 DNN架構和訓練
即便能夠精確的得到寬帶頻譜的大小,在前面的步驟中也會丟失相位信息。基於DNN的輸出,咱們有一個高頻頻譜估計$\hat{X}_H^M=(Y+\mu_H)\sum_H$和$\hat{X}^M=[Z^M+2In2,\hat{X}_H^M]$,一個擴展的寬帶頻譜估計,其中$2In2$補償了因爲能量損失因爲只有一半的點寬帶信號是用來計算的窄帶光譜。爲了防止的質量降低,窄帶譜不作修改[7]。對於相位,咱們對低頻相位$\hat{X}_L^P=Z^P$進行了估計,高頻相位未知。Imaged成像相位是一個簡單的估計$\hat{X}^P=[Z^P,-flip(Z^P)]$,其中$flip(Z^P)$,或簡稱爲$Z_F^P$,定義爲$k-0,1...,\frac{N}{4}-1$時$Z_F^P(k)=Z^P(\frac{N}{4}-1-k)$。而後進行了離散傅里葉反變換(IDFT)
$$公式5:\hat{X}(k)=exp\{\frac{1}{2}\hat{X}^M(k)+j\hat{X}^P(k)\}$$
反轉步驟(2)和(3),用[23]中給出的重疊加法和相同的漢明窗進行特徵提取重建信號$\hat{x}$。
咱們在華爾街日報(WSJ0)語料庫[24]上進行了實驗,在16位分辨率下以16KHz採樣率採樣的麥克風語音。與其餘技術進行直接比較並不容易。相反,咱們在WSJ0上進行了大規模的測試,訓練集中有31166條話語(訓練約50小時,驗證約10小時),測試4137條話語(約10小時)。STFT的窗口大小爲512個樣本,在寬帶信號上的偏移長度爲256個樣本,而窄帶信號的窗口大小爲256,偏移量爲128。將MMSE訓練的基本學習率設置爲$10^{-5}$,採用"newbob"方法[25],當均方偏差減少到小於0.1時學習率減半,當均方偏差減少到小於0.01中止。採用小批量訓練[26],批量大小爲32個話語。做爲比較,咱們創建了2045種混合的全協方差GMM模型,並利用該模型進行了與DNN相同的迴歸分析。
本實驗採用的客觀質量指標爲分段信噪比[17](segmental SNR, SegSNR)和對數頻譜失真(log-spectrum distortion,LSD)[18],定義以下
$$公式6:SegSNR=\frac{1}{L}\sum_{l=0}^{L-1}\{10lg\frac{\sum_{n=0}^{N-1}[x(l,n)]^2}{\sum_{n=0}^{N-1}[x(l,n)-\hat{x}(l,n)]^2}\}$$
其中$l$表示第$l$幀,L表示語音中的幀數。
$$公式7:LSD=\frac{1}{L}\sum_{l=0}^{L-1}\{{\frac{1}{\frac{N}{2}+1}}\sum_{k=0}^{\frac{N}{2}}[X^M(l,k)-\hat{X}^M(l,k)]^2\}^{\frac{1}{2}}$$
爲了測量高頻段頻譜估計的性能,咱們還引入了$LSD_H$,咱們還引入了僅用離散頻率指數求和高半帶失真的$LSD_H$,$k=|frac{N}{4}+1,...,\frac{N}{2}$。
除上述客觀測量外,還進行了主觀聽力測試。10名志願者被要求隨機聽10對測試話語,他們的偏好被記錄下來並總結出來,以代表整體偏好。
神經網絡的大小和形狀會影響神經網絡的性能。爲了簡單起見,咱們將重點放在DNN中具備相同寬度的隱藏層上。咱們採用了[27]中的結構設置。如圖4所示,在咱們對WSJ0數據集的實驗中,具備9幀、3個隱層和每層2048個隱層節點的DNN是一個局部最優的參數設置。這裏9幀表示將4個前幀和4個後幀與當前幀 鏈接到DNNs的輸入層。結果代表,該性能對小參數差別不敏感。
圖4 不一樣DNNs的MSE。默認參數爲9幀、3層和每層2048個隱藏節點,每次比較只有一個參數是變化的
表1列出了不一樣方法和相位重構信號的分段信噪比和LSD結果。每一個方法的第一行是CP,表示咱們使用了「cheated phase(欺騙相位)」,即,咱們使用的是在輸入窄帶信號時不可用的原寬帶信號的高半帶相位。每一種方法的第二行是IP,表示使用了「Imaged phase」,即,咱們將輸入窄帶信號的相位翻轉到上半帶,並給它們加上一個負號。與傳統的想法相反,若是使用不正確的相位進行重構,重構信號的分段信噪比會大大下降(GMM從15.42 dB降至12.12 dB, DNN從16.47 dB降至12.78 dB)。被欺騙相位的LSD始終比Image phase的LSD好1 dB以上。對於高頻段的LSD,在約$1.3dB~2dB$左右的衰減狀況下,始終比整個頻段的LSD更爲嚴重。此外,DNN在CP和IP案例以及全部三項指標上都優於GMM。
表1 對重構信號的客觀度量
SegSNR(dB) | LSD(dB) | $LSD_H$(dB) | ||
GMM | CP | 15.42 | 6.34 | 8.28 |
IP | 12.12 | 7.29 | 9.72 | |
DNN | CP | 16.47 | 5.32 | 6.69 |
IP | 12.78 | 6.44 | 8.44 |
圖5給出了一個女性和一個男性測試話語的例子。直接預測高頻頻譜的一個問題是低頻頻譜與高頻頻譜之間存在不連續。
圖5:。一個女性測試話語和一個男性測試話語的語譜圖,頂行:原始,底行:重構信號,左列:女性,右列:男性。
當與窄帶信號競爭時,GMM和DNN都有100%的優點。表2顯示了GMM和DNN之間的競爭結果。在相位信息已知的狀況下,他們對GMM擴展語音給出了69%的評分,高於31%。對於實際操做測試,當從給定窄帶信號成像相位信息時,首選項的比較上升到84%,而不是16%。良好的相位估計信息能夠進一步提升所提出的DNN方法的BWE性能。
表2 重構信號的測試表現
CP | IP | |
GMM | 31% | 16% |
DNN | 69% | 84% |
咱們的實驗使用一臺32 2.93 GHz CPU核和一張GTX480顯卡的工做站。表3爲DNN和GMM在訓練和擴展階段的計算時間。測試數據自己的大小約爲600分鐘,即擴展階段能夠實時進行。然而,DNNs的延遲時間取決於參數設置。使用上述實驗設置,lag time(滯後時間)爲96 ms((4幀移位* 128點/移位+ 1當前幀* 256點/幀)/ 8 kHz)。
表3 訓練和測試的時間消耗
Train | Test | |
DNN | 1501 min | 93 min |
GMM | 358 min | 367 min |
提出了一種基於深度神經網絡的語音帶寬擴展框架。利用深度學習能力,DNN可以將輸入窄帶信號的幅度譜映射到寬帶信號的高頻段。實驗結果代表,與基於GMM的BWE方法相比,本文提出的DNN框架可以有效地估計高頻頻譜,得到更高的分段信噪比和更低的對數譜失真。主觀測試也證明了咱們提出的框架比其餘基於GMM的系統表現出更高的聽力偏好。對於進一步的工做,咱們打算處理圖5中提到的頻譜不連續問題。此外,經過正確的相位恢復,咱們觀察到系統性能能夠進一步提升,這將在另外一篇即將發表的論文中進行研究。
[1] B. Iser and G. Schmidt, 「Bandwidth extension of telephony speech,」 in Speech and Audio Processing in Adverse Environments,pp. 135–184. Springer, 2008.
[2] Y. Nakatoh, M. Tsushima, and T. Norimatsu, 「Generation of broadband speech from narrowband speech based on linear mapping,」 Electronics and Communications in Japan (Part II:Electronics), vol. 85, no. 8, pp. 44–53, 2002.
[3] Y. Nakatoh, M. Tsushima, and T. Norimatsu, 「Generation of broadband speech from narrowband speech using piecewise linear mapping,」 in Proc. EUROSPEECH, 1997, pp. 1643–1646.
[4] J. Epps and W. H. Holmes, 「A new technique for wideband enhancement of coded narrowband speech,」 in Proc. IEEE Workshop on Speech Coding, 1999, pp. 174–176.
[5] U. Kornagel, 「Spectral widening of telephone speech using an extended classification approach,」 in Proc. EUSIPCO, 2002,vol. 2, pp. 339–342.
[6] S. Vaseghi, E. Zavarehei, and Q. Yan, 「Speech bandwidth extension: extrapolations of spectral envelop and harmonicity quality of excitation,」 in Proc. ICASSP, 2006, vol. 3.
[7] B. Iser and G. Schmidt, 「Neural networks versus codebooks in an application for bandwidth extension of speech signals,」 in Proc. INTERSPEECH, 2003, pp. 565–568.
[8] J. Kontio, L. Laaksonen, and P. Alku, 「Neural network-based artificial bandwidth expansion of speech,」 IEEE Trans. on Audio,Speech, and Lang. Process., vol. 15, no. 3, pp. 873–881,2007.
[9] K.-Y. Park and H. S. Kim, 「Narrowband to wideband conversion of speech using GMM based transformation,」 in Proc.ICASSP, 2000, vol. 3, pp. 1843–1846.
[10] H. Seo, H.-G. Kang, and F. Soong, 「A maximum a posteriorbased reconstruction approach to speech bandwidth expansion in noise,」 in Proc. ICASSP, 2014, pp. 6087–6091.
[11] P. Jax and P. Vary, 「Artificial bandwidth extension of speech signals using MMSE estimation based on a hidden Markov model,」 in Proc. ICASSP, 2003, vol. 1, pp. I–680.
[12] G.-B. Song and P. Martynovich, 「A study of HMM-based bandwidth extension of speech signals」 Signal Processing,vol. 89, no. 10, pp. 2036–2044, 2009.
[13] J. Han, G. J. Mysore, and B. Pardo, 「Language informed bandwidth expansion,」 in Proc. IEEE Workshop on Machine Learning for Signal Processing, 2012, pp. 1–6.
[14] W. P. LeBlanc, B. Bhattacharya, S. A. Mahmoud, and V. Cuperman,「Efficient search and design procedures for robust multi-stage VQ of LPC parameters for 4 kb/s speech coding,」IEEE Trans. Speech Audio Process., vol. 1, no. 4, pp. 373–385,1993.
[15] F. K. Soong and B.-H. Juang, 「Optimal quantization of LSP parameters,」 IEEE Trans. Speech Audio Process., vol. 1, no. 1,pp. 15–24, 1993.
[16] K. Kalgaonkar and M. A. Clements, 「Sparse probabilistic state mapping and its application to speech bandwidth expansion,」in Proc. ICASSP, 2009, pp. 4005–4008.
[17] S. R. Quackenbush, T. P. Barnwell, and M. A. Clements, Objective measures of speech quality, Prentice Hall Englewood Cliffs, NJ, 1988.
[18] I. Cohen and S. Gannot, 「Spectral enhancement methods,」in Springer Handbook of Speech Processing, pp. 873–902.Springer, 2008.
[19] J. B. Allen and L. Rabiner, 「A unified approach to short-time Fourier analysis and synthesis,」 Proc. of the IEEE, vol. 65, no.11, pp. 1558–1564, 1977.
[20] J. Du and Q. Huo, 「A speech enhancement approach using piecewise linear approximation of an explicit model of environmental distortions.,」 in Proc. INTERSPEECH, 2008, pp.569–572.
[21] D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek,N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz,et al., 「The Kaldi speech recognition toolkit,」 in Proc. ASRU,2011, pp. 1–4.
[22] D. H. Ackley, G. E. Hinton, and T. J. Sejnowski, 「A learning algorithm for Boltzmann machines,」 Cognitive Science, vol. 9,no. 1, pp. 147–169, 1985.
[23] D. Griffin and J. S. Lim, 「Signal estimation from modified short-time Fourier transform,」 IEEE Trans. Acoust., Speech,Signal Process., vol. 32, no. 2, pp. 236–243, 1984.
[24] D. B. Paul and J. M. Baker, 「The design for the Wall Street Journal-based CSR corpus,」 in HLT ’91 Proceedings of the workshop on Speech and Natural Language, 1992, pp. 357–362.
[25] ICSI QuickNet toolbox. Newbob approach is implemented in the toolbox. [Online]. Available:http://www1.icsi.berkeley.edu/Speech/qn.html
[26] G. E. Hinton, 「A practical guide to training restricted Boltzmann machines,」 Tech. rep. utml tr 2010–003, Dept. Comput.Sci., Univ. Toronto, 2010.
[27] Y. Xu, J. Du, L. Dai, and C.-H. Lee, 「An experimental study on speech enhancement based on deep neural networks,」 IEEE Signal Process. Lett., pp. 65–68, 2014.