利用WAVENET擴展語音帶寬html
做者:Archit Gupta, Brendan Shillingford, Yannis Assael, Thomas C. Waltersgit
博客地址:http://www.javashuo.com/article/p-xqdbmbyx-cm.html網絡
博客做者:凌逆戰架構
大規模的移動通訊系統每每包含傳統的通訊傳輸信道,存在窄帶瓶頸,從而產生具備電話質量的音頻。在高質量的解碼器存在的狀況下,因爲網絡的規模和異構性,用現代高質量的音頻解碼器來傳輸高採樣率的音頻在實踐中是很困難的。本文提出了一種在通訊節點能夠經過低速率編解碼器來擴展帶寬的方法。爲此,咱們提出了一個基於對數-梅爾譜圖的模型,該模型以8 kHz的帶寬受限語音信號和GSM-full-rate(FR)壓縮的僞信號爲條件來重建高分辨率的信號。在咱們的MUSHRA評估中,咱們代表,通過訓練能夠 從 經過8kHz GSMFR編解碼器的音頻 中 上採樣到24kHz語音信號的模型,可以重構質量稍低於16kHz自適應多速率帶寬音頻編解碼器(AMRWB) 編解碼器的音頻,而後關閉 原始編碼信號和以24kHz採樣的原始語音之間的感知質量差距大約有一半。 咱們進一步證實,當經過同一模型時,未經壓縮的8kHz音頻能夠在相同的MUSHRA評估中再次重建質量比16kHz AMR-WB更好的音頻。dom
關鍵詞:WaveNet、帶寬擴展、超分辨率、生成模型ide
傳統的傳輸信道仍然是許多大型通訊系統的一部分。這些通道引入瓶頸,限制了帶寬和語音質量。一般這被稱爲電話質量音頻。將基礎結構的全部部分升級爲與更高質量的音頻編解碼器兼容可能很困難。所以,本文提出了一種不升級基礎設施的全部通訊節點的方法,其中通訊節點能夠代替擴展任何傳入語音信號的帶寬。爲了實現這一目標,咱們提出了一個基於WaveNet的模型[1],一個音頻波形的深度生成模型。工具
WaveNet被證實在基於語言特徵的高質量語音合成中是很是有效的。此外,WaveNet體系結構已被用於文本到語音的log-mel譜圖[2]和語音編碼的其餘低維潛在表示[3,4]。考慮到wavenet體系結構從約束條件表示中生成高質量語音的能力,咱們將此技術擴展到語音的帶寬擴展(BWE)[5]問題,也稱爲音頻超分辨率[6]。性能
雖然BWE能夠被理解爲將帶限信號擴展到低頻和高頻區域,但在這種狀況下,咱們對電話應用特別感興趣,其中音頻一般經過低速率語音編解碼器,如GSM全速率(FR)[7],它將重建信號的最高頻率份量限制在4kHz如下,從而致使音頻質量下降和潛在的可懂度損害。所以,咱們着重於從採樣率爲8kHz的輸入信號重建採樣率爲24kHz的信號。過去,帶寬擴展是在語音的聲碼器表示領域中進行的,使用的技術有高斯混合模型和隱馬爾可夫模型[5];最近,人們愈來愈關注使用神經網絡來建模頻譜包絡[8]或直接預測上採樣波形[六、九、10],比之前的方法更能提升質量。學習
在咱們的實驗評估中,咱們評估了咱們提出的模型對窄帶信號執行帶寬擴展的能力。爲了說明咱們的工做所產生的影響,咱們展現了一個通過訓練的模型,在8kHz時將經過GSM-FR編解碼器的語音信號提高到24kHz,可以重建與16kHz時自適應多速率寬帶編解碼器(AMR-WB)[11]產生的音頻質量類似或更好的音頻。GSM-FR是傳統GSM移動電話中使用的編解碼器,而AMR-WB則是高清語音通話中經常使用的編解碼器。雖然很難與之前的工做進行比較,但因爲缺少可重複的代碼和不一樣的測試集劃分,咱們的方法在MUSHRA評估中得到了比之前的工做更高的分數[6]。測試
值得一提的是,咱們相信咱們的WaveNet內核可能會被更高效的計算架構所取代,如並行WaveNet[12]、WaveGlow[13]或WaveRNN[14]。這些體系結構已經代表,在保持類似的建模性能的同時,一般能夠重現更易於計算的模型版本。在這項工做中,咱們創建了一個基於WaveNet的高質量帶寬擴展概念的證實,由於它具備優越的表示能力和相對容易的訓練,使得使用其餘更易於計算的架構來再現結果的可能性成爲可能。
WaveNet是一個生成模型,它將波形$x=\{x_1,...,x_T\}$的級聯機率建模爲條件機率的乘積,該條件是在先前timesteps給定的樣本下給出的。條件WaveNet模型採用一個附加的輸入變量$h$,並將該條件分佈建模爲
$$p(\mathbf{x} | \mathbf{h})=\prod_{t=1}^{T} p\left(x_{t} | x_{1}, \ldots, x_{t-1}, \mathbf{h}\right)$$
此任務中使用了條件WaveNet模型。條件輸入$h$經過由五個擴張(dilated)卷積層組成的'條件堆棧',接着是兩個轉置(transpose)卷積,其效果是將條件輸入的上採樣因子增長四倍。自迴歸(Autoregressive)輸入在[-1,1]範圍內被標準化,並經過濾波器尺寸爲4和512的卷積層。而後,它們被輸入到核心WaveNet模型中,WaveNet模型有三層,每層包括10個擴張(dilated)卷積層,具備跳躍鏈接,就像原始WaveNet體系結構中同樣[1]。咱們使用的擴張(dilation)因子是2;濾波器的大小和數目分別是3和512。Skip connection的輸出經過兩個卷積層,每一個卷積層有256個濾波器。樣本值上的輸出分佈使用10個份量的量化邏輯混合(quantized logistic mixture)[15]建模。
圖2:處理過程的說明。將8khz採樣的輸入音頻被轉換成對數mel頻譜表示,
而後做爲WaveNet條件堆棧中的輸入。該模型輸出高採樣率24khz的音頻和更高的頻率預測從其他的信號。
咱們的模型在LibriTTS[16]數據集上進行了訓練和評估。LibriTTS與著名的LibriSpeech語料庫[17]來自相同的源材料,但包含24kHz採樣的音頻(與LibriSpeech的16kHz相反),每一個樣本的採樣分辨率爲16位。這兩個數據集都來自一組公共領域的有聲讀物(以及相關文本),這些讀物是由有各類口音的講英語的人在各類非錄音室條件下閱讀的,這意味着錄音中常常會有一些背景噪音。數據 train-clean-100 和 train-clean-360 子集被用於不一樣的訓練,每一個集合中有一小部分(1-2%)用於評估。聽力評估是在test-clean子集上進行的,其中包含一組與訓練集合無關的說話人,確保訓練集合中沒有使用說話人。
該模型採用最大似然法對8kHz限帶波形計算獲得的melb譜圖進行24kHz波形預測訓練。與WaveNet的其餘實例同樣,在訓練期間有兩種類型的輸入到模型中,一種是包含前一時間步的樣本的自迴歸輸入,另外一種是條件輸入。訓練期間的自迴歸輸入是教師強制的,所以輸入高質量的24kHz音頻樣本。咱們從較低帶寬的音頻做爲條件輸入來計算log-mel譜圖。
換句話說,WaveNet描述了以前的模型:
$$p\left(\mathbf{x}_{\mathrm{hi}} | \mathbf{x}_{\mathrm{lo}}\right)=\prod_{t=1}^{T} p\left(x_{\mathrm{hi}, t} | x_{\mathrm{hi}, 1}, \ldots, x_{\mathrm{hi}, t-1}, \mathbf{x}_{\mathrm{lo}}\right)$$
其中$x_{hi}$是自迴歸建模的24kHz波形,$x_{Io}$是8kHz窄帶數據,用log mel spectrogram(對數梅爾頻譜)表示。$x_{}Io}$用做WaveNet條件設置堆棧中的輸入。
咱們使用Adam[18]優化器,學習率爲$10^{-4}$,momentum設置爲0:9,epsilon設置爲$10^{-8}$。咱們使用的總共batch_size是64,每一個核心的batch_size爲8。每一個batch有8個張量處理單元(TPU)。8*8=64.
在這個評估中,咱們主要感興趣的是在固定的傳統音頻編碼路徑設置中的語音加強,例如在標準GSM移動網絡上的呼叫。在這種狀況下,編解碼器一般以4kHz的帶寬工做,從而產生8kHz採樣率的音頻波形。
爲了生成訓練集,LibriTTS clean-100訓練集使用sox工具進行了預處理,將原始音頻經過GSM-FR編碼器,獲得一個包含原始24kHz音頻信號和8kHz採樣率信號的數據集,而且對於每一個聲音,使用編解碼器會致使質量進一步降低。爲了在LibriTTS訓練集中生成給定話語的訓練對,從話語中的隨機點選擇350ms音頻區域。利用50ms的Hann窗(步長爲12.5ms)從訓練區域的8kHz輸入音頻中產生對數mel頻譜,而後映射到80個mel頻率bins,範圍從125Hz到輸入信號的Nyquist頻率。這些參數致使條件向量$x_{I0}$在80Hz rate的時候長度爲80。而後訓練一個WaveNet網絡,根據從GSM音頻計算獲得的譜圖,預測同一區域的ground-true採樣率音頻。在早期的實驗中,咱們發現與直接以原始波形做爲條件相比,這種頻譜條件方法表現得更好。
咱們使用隱藏參考和Anchor(錨定)(MUSHRA)的多重刺激[20]聽力測試方法來評估咱們的模型。每一個監聽器(被要求測試音頻的人)都有24kHz的Ground-truth參考標記,以及幾個未標記的測試項目:24kHz參考、AMR-WB編碼音頻、GSM-FR編碼音頻(低質量錨)、8kHz音頻(使用sox中的默認設置進行下采樣)、WaveNet上採樣8kHz至-24kHz預測音頻、WaveNet上採樣GSM-FR至-24kHz預測音頻。
評分者被要求給每一個測試話語一個0到100分之間的分數,使用一個滑動條,滑動條上等距區域分別標爲「差」、「差」、「好」和「優秀」。評分者應該在接近100分的地方對隱藏的參考進行評分,錨刺激應該獲得最低的分數。一般,MUSHRA評估是由一小部分訓練有素的評估人員進行的。然而,在這個評估中使用的評分者是未經訓練的,所以每一個話語都由100個不一樣的評分者進行評分,以確保偏差條很窄。
圖3:咱們的模型(WAVENET 8KHZ和WAVENET GSMFR)以8KHZ GSM-FR音頻信號爲訓練對象,使用未壓縮8KHZ和8KHZ GSM-FR音頻進行評估,並使用MUSHRA聽力測試方法進行評估。該模型與初始音頻在24KHZ和8KHZ,以及AMR-WB 16kHz和GSM-FR 8KHZ編解碼器進行了比較。
MUSHRA測試代表,從8kHz音頻直接預測到24kHz的模型的性能略好於AMRWB編解碼器,而從GSM編碼8kHz預測到24kHz的模型的性能僅略差於AMR-WB。
從LibriTTS測試乾淨語料庫中選取一組樣本進行聽力測試。經過對測試集中每一個說話者隨機選擇一個3 - 4秒的話語做爲樣本,這就致使了36個話語被隨機選擇8個來進行MUSHRA聽力測試。
MUSHRA聽力測試結果如圖3所示。
最後,爲了直觀地說明重構樣本的質量,圖1描述了來自LibriTTS語料庫的話語的原始、reconstructed(重構)和GSM-FR音頻的頻譜圖。
圖1:來自LibriTTS語料庫的話語的語譜圖。
上:原始音頻,
中:根據GSMFR audio的頻譜從WaveNet模型中重建的音頻,
下:來自GSM-FR audio的語譜圖。
提出了一種新的基於小波變換的語音帶寬擴展模型。該模型可以從8kHz信號中重構出24kHz的音頻,這些信號的質量與AMR-WB編碼解碼器在16kHz時產生的信號相似或更好。咱們的上採樣方法從標準的電話質量和gsm質量的音頻中產生HD-Voice質量的音頻,代表咱們的音頻超分辨率方法對於提升現有電話系統的音頻質量是可行的。對於將來的工做,其餘架構,如WaveRNN,能夠在相同的任務上進行評估,以提升計算效率。
[1] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu, WaveNet: A generative model for raw audio. in SSW, 2016, p. 125.
[2] J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerrv-Ryan, et al., Natural tts synthesis by conditioning wavenet on mel spectrogram predictions, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4779 4783.
[3] W. B. Kleijn, F. S. Lim, A. Luebs, J. Skoglund, F. Stimberg, Q. Wang, and T. C. Walters, WaveNet based low rate speech coding, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 676 680.
[4] C. Garbacea, A. van den Oord, Y. Li, F. S. C. Lim, A. Luebs, O. Vinyals, and T. C. Walters, Low bit-rate speech coding with VQ-VAE and a WaveNet decoder, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019.
[5] E. R. Larsen and R. M. Aarts, Audio Bandwidth Extension: Application of Psychoacoustics, Signal Processing and Loudspeaker Design. USA: John Wiley &; Sons, Inc., 2004.
[6] V. Kuleshov, S. Z. Enam, and S. Ermon, Audio super resolution using neural networks, arXiv preprint arXiv:1708.00853, 2017.
[7] ESTI, GSM Full Rate Speech Transcoding, European Digital Cellular Telecommunications System, Tech. Rep. 06.10, 02 1992, version 3.2.0. [Online]. Available: https://www.etsi.org/deliver/etsi gts/06/0610/03.02. 00 60/gsmts 0610sv030200p.pdf
[8] J. Abel and T. Fingscheidt, Artificial speech bandwidth extension using deep neural networks for wideband spectral envelope estimation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. PP, pp. 1 1, 10 2017.
[9] Z.-H. Ling, Y. Ai, Y. Gu, and L.-R. Dai, Waveform modeling and generation using hierarchical recurrent neural networks for speech bandwidth extension, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 5, pp. 883 894, 2018.
[10] Y. Gu and Z.-H. Ling, Waveform modeling using stacked dilated convolutional neural networks for speech bandwidth extension. in INTERSPEECH, 2017, pp. 1123 1127.
[11] 3GPP, Mandatory speech CODEC speech processing functions; AMR speech CODEC; General description, 3rd Generation Partnership Project (3GPP), Technical Specification (TS) 26.071, 06 2018, version 15.0.0. [Online]. Available: https://portal.3gpp.org/desktopmodules/Specifications/ SpecificationDetails.aspx?specificationId=1386
[12] A. van den Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. van den Driessche, E. Lockhart, L. Cobo, F. Stimberg, N. Casagrande, D. Grewe, S. Noury, S. Dieleman, E. Elsen, N. Kalchbrenner, H. Zen, A. Graves, H. King, T. Walters, D. Belov, and D. Hassabis, Parallel WaveNet: Fast high-fidelity speech synthesis, in Proceedings of the 35th International Conference on Machine Learning, ser. Machine Learning Research, vol. 80. Stockholmsmssan, Stockholm Sweden: PMLR, 2018, pp. 3918 3926.
[13] R. Prenger, R. Valle, and B. Catanzaro, Waveglow: A flowbased generative network for speech synthesis, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019.
[14] N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, N. Casagrande, E. Lockhart, F. Stimberg, A. Oord, S. Dieleman, and K. Kavukcuoglu, Efficient neural audio synthesis, in International Conference on Machine Learning, 2018, pp. 2415 2424.
[15] T. Salimans, A. Karpathy, X. Chen, and D. P. Kingma, Pixelcnn++: A pixelcnn implementation with discretized logistic mixture likelihood and other modifications, in International Conference on Learning Representations (ICLR), 2017.
[16] H. Zen, V. Dang, R. Clark, Y. Zhang, R. J. Weiss, Y. Jia, Z. Chen, and Y. Wu, LibriTTS: A corpus derived from librispeech for text-to-speech, arXiv preprint arXiv:1904.02882, 2019.
[17] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech: an asr corpus based on public domain audio books, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015, pp. 5206 5210.
[18] D. P. Kingma and J. Ba, ADAM: A method for stochastic optimization, in International Conference on Learning Representations (ICLR), 2015.
[19] N. P. Jouppi, C. Young, N. Patil, D. Patterson, G. Agrawal, R. Bajwa, S. Bates, S. Bhatia, N. Boden, A. Borchers, et al., In-datacenter performance analysis of a tensor processing unit, in International Symposium on Computer Architecture (ISCA). IEEE, 2017, pp. 1 12. [20] International Telecommunication Union, Method for the subjective assessment of intermediate sound quality (MUSHRA), ITU-R Recommendation BS.1534-1, Tech. Rep., 2001.