Audio Bit Depth Super-Resolution with Neural Networks

Audio Bit Depth Super-Resolution with Neural Networks數據庫

做者:Thomas Liu、Taylor Lundy、William Qi網絡

摘要

        Audio Bit Depth Super-Resolution是一個還沒有經過深度學習的視角來研究的問題,目前使用的有效方法不多。在本文中,咱們提出了一種基於WavaNet結構來實現低分辨率8位音頻輸入的升級,從而產生高保真16位輸出,(將語音從8kHz音頻,轉化爲16kHz音頻)。消除了過程當中的噪聲和artifacts(僞影)。咱們還探索了幾種不一樣的方法來提升該問題的計算可操做性,並對每種方法的優缺點進行了深刻的分析。架構

1 引言

       在語音信號處理領域,存在着大量的上採樣和超分辨率問題,有待於經過深度學習的視角來研究。與視覺領域相比,語音信號處理相對缺少進展的一個主要緣由是處理高維音頻數據的固有困難。爲了減輕這種高維的詛咒所帶來的計算負擔,之前許多基於學習的信號處理方法都將重點放在使用time-frequency(時頻)音頻表示(如頻譜圖)做爲輸入[15,1,16]。app

       近年來,基於WaveNet的[12]方法的結果代表,在合理的內存約束下,確實能夠直接對原始音頻輸入進行操做。經過改進對數據中時間信息的訪問,這些產生式[8,7]和判別式[9]方法已經可以利用有價值的時間相關特徵,例如信號相位,擴展了機器學習技術能夠解決的音頻任務的範圍。less

      Audio Bit Depth Super-Resolution任務中從時間信息的可用性中受益。本文中使用的Bit-Depth是指用於表示音頻信號中每一個採樣的位數。重要的是,該變量控制音頻信號可以表示的音量範圍(動態範圍),在判斷音頻質量方面起着重要做用。因爲更大動態範圍的精度表示須要在每一個採樣點使用更多的bit,所以一般必須在音頻文件的大小和保真度之間進行權衡。一般執行的下采樣操做包括從24位錄音室質量輸入下采樣到16位CD質量輸出,以及從16位縮小到8位音頻。dom

      因爲許多壓縮音頻編碼都是有損壓縮的[2],從低分辨率音頻輸入中恢復高保真音頻是一個定義不清且很難解決的問題。爲了減輕分辨率下降的負面影響,人們已經提出了許多技術。一種方法,oversampling,犧牲音頻bit-rate(比特率)和信號噪聲,以換取更高的模擬音頻比特深度。另外一種方法,dithering,在下采樣步驟引入噪聲,以增長低分辨率(lr)信號的感知動態範圍。到目前爲止,咱們尚未發現任何利用深度網絡經過學習lr輸入和hr源音頻之間的關係,來提升音頻比特深度的方法。機器學習

      即便應用了這些降噪技術,源音頻信號和壓縮音頻信號之間在數量和質量上仍然存在顯著差別。咱們假設經過利用原始音頻格式固有的時間依賴性,咱們能夠經過超分辨lr信號的bit-depth來進一步減少信號質量的差別。這種從8位輸入到16位輸出的映射可使用咱們稱之爲DBSR的WaveNet架構的改進版本以有監督的方式學習。ide

       這種方法的成功依賴於音頻信號中語義結構的存在,而語義結構在不一樣的音頻源之間可能存在差別。爲了探究這個問題,咱們對咱們的模型進行了評估,評估對象是兩種不一樣的常見的音頻、音樂和語音類別。函數

2 相關工做

       音頻生成已經在不一樣但相關的任務上進行了探索,如文本到語音、音頻去噪和帶寬擴展。WaveNet架構[12]是與PixelCNN[13]等效的音頻域。Wavenet已經演示了高質量的音頻生成,使用一個dilated(擴張)的CNN結構來保留一個大的接收域,同時仍然保持每秒包含16,000個樣本的原始音頻波形的計算可處理性。WaveNet最初的論文關注的是文本到語音的合成,而派生工做已經在諸如音樂生成[3]和音頻去噪[9]等任務上嘗試使用該架構。性能

       與咱們的任務最相關的衍生工做是Rethage等人所作的語音去噪工做。與位深超分辨率類似,語音去噪須要輸入和輸出樣本之間一對一對應的判別模型,而不是原始Wavenet結構的自迴歸性質。此外,因爲問題的判別性質,在預測過程當中有可能放鬆WaveNet的因果約束,以及對將來時間步長的輸入樣本的條件。與自迴歸生成不一樣的是,在測試期間,將來的樣本根本不存在,而咱們的鑑別位深超分辨率問題,來自過去和將來的樣本均可能提供有價值的上下文信息。

       基於RNNs的網絡結構,傳統上是序列數據的天然擬合,也獲得了探索。值得注意的是,SampleRNN[6]提出了一個分層的GRU模型,在使用更簡單的網絡和提供更快的推理的同時,生成與wavenet質量至關的音頻。這種層次結構試圖解決經驗代表的接收能力較差的RNNs領域,不然,在幾秒鐘的音頻中包含數萬個樣本,就會出現問題。

       須要注意的一個問題是,因爲評估16位以上的softmax分佈(每一個樣本的機率爲65536)是困難的,原始WaveNet和SampleRNN都產生8位音頻做爲輸出,將輸出下降到每一個樣本只有256個機率。因爲大多數現代音頻都是16位編碼的,而且在傳統的8位音軌(如視頻遊戲音樂)上存在一個有趣的探索位深度超分辨率的用例,所以咱們尋求一種可處理性產生16位輸出的方法。PixelCNN++[10]中針對相似的過像素圖像生成任務,提出了一種潛在的解決方案,即便用離散邏輯混合對256路(本例中爲65536路)分類分佈進行建模。在並行化WaveNet優化[13]中,採用該技術進行音頻生成,生成高保真的16位語音剪輯,目前部署在谷歌Assistant中。

 

 圖1 WaveNet架構的高級概覽

3 Bit-Depth Super Resolution

3.1 設置

       給出一個低分辨率信號x,bit depth b1,咱們的模型的目標是重建一個高分辨率版本的y,位深b2 > b1。例如,若是x是壓縮到8位深度的音樂樣本,發出可聽到的嘶嘶聲,動態範圍減少;y將是一個高分辨率的16位重建的原始音軌。

       爲了恢復未定義的信號,咱們嘗試學習高分辨率信號y的一個模型p(yjx),條件是它的低分辨率輸入x。因爲咱們的模型是徹底卷積的,因此它可以放大任意長度的音頻樣本。

3.2 結構

       咱們的模型結構與Rethage等人使用的用於音頻去噪的修改過的WaveNet在結構上相似,兩個模型都是由包含多層擴張卷積塊構建的。這些擴張的卷積經過跳過某些頻率的輸入樣原本增長接受域。從第一層的擴張量爲1開始(至關於標準卷積),並在每一層將擴張係數加倍,只使用線性增加的層數,模型的接受域就能夠呈指數增加。這與CNNs中的池化層相似,但保留了輸入維度,這一點很重要,由於音頻的輸出長度必須與輸入匹配。咱們詳細介紹了對WaveNet所作的修改,以使該問題適應位深超分辨率。

3.2.1 判別預測

       與原WaveNet的自迴歸性質不一樣,原WaveNet學習在給定全部先前樣本的狀況下預測下一個樣本,而位深超分辨率問題須要一個判別模型,在該模型中,訓練每一個輸入樣本輸出一個樣本。在這種狀況下,預測僅以輸入樣本爲條件,並進一步影響網絡的變化,包括非因果性和更大的卷積核。

3.2.2 非因果擴張

       來自Rethage [9]語音去噪模型的BDSR中包含的WaveNet修改之一是消除了因果關係。 因爲因果卷積迫使每一個時間步的預測僅依賴於前一時間步的輸入,咱們發現這對於bit depth向上縮聽任務來講是沒必要要的。 與wavenet最初設計的音頻生成任務不一樣,從一開始就能夠得到整個輸入音頻信號。 這是在模型中經過將感知區域的時間向前移動一半大小來實現的,將過去樣本的輸入源僅改變爲過去和將來的50/50混合樣本。

3.2.3 平滑卷積核

       因爲咱們的模型再也不是自迴歸的,預測也再也不依賴於之前的輸出,所以可能會在輸出中引入不連續,從而致使對音頻僞影的感知。爲了防止這種狀況發生,咱們將跳過鏈接輸出上的1x1卷積更改成3x1卷積[9],這樣可使輸出更加平滑。內核大小的這種變化是圖2中所示的WaveNet模型的高級概述的惟一變化。


圖2 擴大的因果卷積層的一個例子,其步長呈指數增加

3.2.4 非線性激活

       咱們模型架構的其他組件相似於WaveNet的原始實現。咱們使用的是由PixelCNN[13]首次引入的非線性激活函數,其性能優於一般的校訂線性激活(ReLU)函數。BDSR中使用的激活函數定義爲

$$z=tanh(W_{f,k}*x)*\sigma (W_{g,k}*x)$$

其中x爲輸入,w爲一組學習參數;k表示當前層的索引,f和g表示濾波器或門。咱們還利用參數化的skip(跳過)鏈接,經過將在較低層學習到的表示直接傳播到輸出[9]來訓練更深層次的模型。

3.3 高分辨率生成和損失

       在音頻的許多領域中,16位深度一般是準確再現沒有僞影和缺陷的聲音所需的最小深度。然而,因爲在每一個時間步上都有大量可能的值,使用16位音頻一般會很是昂貴。原始的WaveNet模型經過使用u-law壓縮的預處理步驟將輸入量子化到8位來解決這個問題。相反,BDSR直接操做低質量的8位音頻輸入,並試圖學習到HR 16位音頻的映射。

       在過去,直接從8位或更低的音頻輸入生成16位音頻在計算上是困難的,由於這須要將65536-way分類分佈做爲輸出。包含2^{16}個可能amplitudes(振幅)中的每個的機率,每秒鐘須要產生16000個音頻分佈,每一個樣本一個。這給運行在16位音頻上的模型帶來了巨大的計算負擔,影響了訓練和推理。咱們探討了兩種實際預測16位音頻輸出的方法。

3.3.1 Logistic混合近似

       第一種方法是經過近似表示具備低維混合分佈的振幅範圍的65536-way分類分佈來表示縮放問題。咱們早期的實驗使用了離散的logistic混合似然損失(PixelCNN++[10]引入)。這將模擬16位音頻的完整分類分佈,只包含10個邏輯分佈(每一個分佈包含u、pi、s,總共30個輸出通道,而不是65536)。在之前的工做中,這種類型的損失已被證實在建模3通道可視輸出和16位音頻輸出時都是有效的,後者被用於google的WaveNet並行實現中[7]。在實踐中,儘管節省了大量內存,可是很難實現輸出乾淨的訓練,咱們最終將注意力轉移到下一個方法上,該方法顯示了更好的結果。

3.3.2 Delta預測

       產生16位預測的另外一種方法的一個觀察結果是,在16位音頻序列h到8位序列 l 的最合理的下采樣過程當中,時間t處振幅的信息丟失受到限制,使得$h_t=l_t*256\pm d$,其中$d<\frac{2^{16}}{2^8}$。當咱們校準8位和16位音頻並檢查振幅差別的範圍時,這是直觀的真實狀況,並經經驗驗證。若是咱們將此問題建模爲學習此約束下的下采樣過程的逆映射,咱們能夠簡化預測任務,只預測低分辨率8位序列和16位高分辨率序列之間的增量。咱們的目標是儘量準確地預測-256到255之間512個振幅增量中的一個。

3.3.3 真實值預測

  做爲delta預測的擴展,咱們將輸出直接建模爲-256到255之間的實值,而不是離散的512-way分類分佈,從而得到了更好的性能。該方法對信號的去噪效果良好[9]。除了略微減少模型大小外,使用實值預測還能夠加強輸出分佈的平滑性,由於相鄰的振幅值意味着音頻質量的類似性。咱們經過實驗驗證了背景噪聲的大小與預測與源音頻之間增量的均方偏差密切相關。

4 結果和評估

  咱們項目的目標是證實深度神經網絡在音頻位深超分辨率方面的有效性。咱們但願證實咱們提出的模型可以優於現有的使用恆定比例因子將信號從低分辨率域天真地映射到高分辨率域的方法,這種方法不會恢復任何額外的音頻細節。

4.1 設置

4.1.1 數據庫

  咱們在兩個數據集上對全部模型進行了評估:VCTK數據集[14],其中包含108位不一樣演講者44小時的數據;Mehri Piano數據集[6],其中包含10小時的貝多芬奏鳴曲。爲了從16位原始信號中產生低分辨率音頻信號,咱們在將信號降級爲所需的低頻信號比以前應用抖動。

  根據文獻[4]中的實驗結構,咱們評估了BDSR模型在兩種狀態下的幾種變體。在單說話人任務中,該模型對VCTK說話人1前223段(30分鐘音頻)錄音進行了訓練,並對最後8段錄音進行了測試。在鋼琴任務中,咱們使用88%-6%-6%的標準訓練/驗證/測試分割來評估BDSR在不一樣類型音頻中的泛化能力。

   不幸的是,因爲時間限制,另一項旨在經過對前99名VCTK說話人的樣本進行訓練和對其他8名演講者進行測試,來評估BDSR在多說話人之間的泛化能力沒有獲得評估。不過,這將成爲將來探索的一個很好的起點。

4.1.2 方法

  爲了對BDSR經過位深超分辨率恢復音頻細節的能力進行無偏量化比較,在生成的樣本y和源音頻x之間選擇並計算峯值信噪比(PSNR)度量。

 $$PSNR(x,y)=10\log \frac{MAX_v^2}{||x-y||_2^2}$$

  雖然PSNR是在圖像和音頻域內評估超分辨率性能的一個普遍報道的度量標準[11,4],但它在評估感知質量方面已被證實並不是徹底準確[5]。所以,咱們還根據基線手動評估生成樣本的感知質量,以便更好地理解由各類模型學習的映射。

4.2 結果

  咱們在Mehri Piano和VCTK語音數據集上測量了比特深度超分辨率後的峯值信噪比,詳見表1。較高的PSNR值與較低的均方偏差相關,所以應該對應於更接近源音頻的輸出。在咱們的評估中,咱們將BDSR變體輸出的PSNR與原始放大的8位音頻基線進行比較。

  如表1所示,使用delta BDSR模型預測分類分佈不會致使基線超過結果。咱們假設這個模型的不顯著的性能能夠歸因於輸出的不連續性,致使更大的感知噪聲。儘管結果代表該模型對delta的預測相對準確,但人類的感知測試代表,該模型每每沒法消除噪聲,只能將其轉化爲更結構化的形式。也就是說,與8位輸入音頻的靜態背景噪聲相比,超分辨率16位音頻顯示出與聲道的響度相關的動態噪聲。

 

 

表1 在Mehri piano和VCTK數據集上的位深超分辨率性能(以PSNR度量)比較。評價方法包括初始上標基線、接受域爲12280的delta BDSR、接受域爲3080的delta BDSR和實值輸出的BDSR。

  將接受域從3080增長到12280並無致使超分辨率質量有任何實質性的改善。事實上,具備較大接受域的等效模型在PSNR指標上的表現更差。咱們推測,因爲向下採樣過程當中引入的artifacts (人工製品)的局部性質,爲模型提供更多的長期數據沒有幫助,而且可能會阻礙工件減小中的性能。具備很是大的接受域的模型須要顯著更多的參數,從而在沒有提供更多有用信息的狀況下減小訓練時間。這種差別在Mehri數據集中表現得尤其明顯,12280的接收域覆蓋了幾乎1秒的音頻,比區分鋼琴音符和噪音所需的時間長得多。相比之下,VCTK的語音剪輯具備不太一致的本地音頻特性,長期的關係可能爲清除有損噪聲僞影提供更多的好處。

  在咱們的實值輸出實驗中,咱們觀察到比基線更好的PSNR,而且在8位音頻和超分辨率16位音頻之間進行了雙盲聽力測試,背景噪聲的尖銳程度有細微但一致的下降。因爲時間和信用的限制,咱們提早終止了培訓。然而,觀察到在訓練結束時驗證損失和PSNR評分仍在近似線性地降低,咱們相信進一步的訓練(總共大約一週的訓練)將進一步改善結果,使其在人耳中不那麼微妙。

4.3 早期實驗

  在咱們演示的早期實驗中,咱們遇到了虛假的高PSNR分數,這是由於在從音頻(一般是從曲目開始)生成訓練和驗證片斷時沒有過濾出音頻的安靜部分。顯然,這些部分更容易正確預測,並致使過分擬合,當咱們試圖使驗證剪輯多樣化時,這種擬合效果並無獲得很好的推廣。咱們已經糾正了這個問題,在咱們肯定常常包含高活動的軌道中間部分進行訓練。

  因爲數據集中的音頻片斷足夠多樣化和密集,提案中預測全音頻波形爲幅度步長的分類分佈的原始模型在合理的訓練時間內表現不佳。這部分是因爲分類輸出分佈的噪聲,部分是因爲模型花費大量時間學習簡單地複製輸入的質量,更不用說改進它了。

   這些觀察結果促使咱們的實驗轉向實值預測和增量預測,分別解決了這兩個問題。

  實數空間的固有連續性使得模型比分類輸出在更短的時間內產生更好的結果。儘管一般對輸出分佈形狀的假設較少,但事實證實,在對概念上連續的振幅空間建模時,不相交的類別拔苗助長,並且不直觀(儘管在壓縮計算機表示中進行了離散化)。

   Delta預測減小了輸出參數,並消除了冗餘,這些冗餘致使在匹配標識映射的質量以前花費了大量的訓練時間。

4.4 zero shot音頻超分辨率

  受Shocher等人在圖像零鏡頭超分辨率[11]中的工做啓發,咱們還研究了單個音頻樣本中位深尺度內復發的發生率。爲此,咱們嘗試在沒有任何額外訓練數據或預訓練模型的狀況下提升音頻樣本的位深。

  僅使用一個LR輸入樣本,就能夠經過向下縮放生成一個加強的訓練數據語料庫。在咱們的實驗中,咱們經過將原始的低分辨率信號從8位下降到6位和4位來實現這一點。而後對模型進行訓練,將4位信號重構爲6位信號,將6位信號重構爲8位信號。這種方法背後的假設是,經過學習如何在較低的尺度上提高位深,通過訓練的網絡將可以推廣和有效地提高輸入LR樣本到所需的輸出保真度。

  不幸的是,零杆訓練方法在實踐中被證實是不成功的。即便在生成的訓練集上訓練超過100個紀元,損失也沒法收斂。此外,產生的樣本每每退化,含有大量的可聽噪聲。這代表在單個音頻樣本中沒有跨位深的內部遞歸。

5 總結

  在本文中,咱們對WaveNet架構進行了成功的修改,使其可以經過增長位深來提升音頻的峯值信噪比。膨脹卷積和修正後的損失函數的組合使得模型即便在較大的接收域也能保持計算上的可行性。咱們的模型可以在口語和音樂數據集上產生使人信服的定性和定量結果。該模型可用於多種應用場合,這些場合能夠提供內存,以換取動態範圍的增長和信號噪聲的下降。有但願的例子包括重建無損音樂文件和提升語音識別的錄製質量。

參考文獻

[1] D. Amodei, S. Ananthanarayanan, R. Anubhai, J. Bai, E. Battenberg, C. Case, J. Casper, B. Catanzaro, Q. Cheng, G. Chen, et al. Deep speech 2: End-to-end speech recognition in english and mandarin. In International Conference on Machine Learning, pages 173 182, 2016. [2] B. D Alessandro and Y. Q. Shi. Mp3 bit rate quality detection through frequency spectrum analysis. In Proceedings of the 11th ACM Workshop on Multimedia and Security, pages 57 62. ACM, 2009. [3] J. Engel, C. Resnick, A. Roberts, S. Dieleman, D. Eck, K. Simonyan, and M. Norouzi. Neural audio synthesis of musical notes with wavenet autoencoders. arXiv preprint arXiv:1704.01279, 2017. [4] V. Kuleshov, S. Z. Enam, and S. Ermon. Audio super resolution using neural networks. arXiv preprint arXiv:1708.00853, 2017. [5] C. Ledig, L. Theis, F. Husz ar, J. Caballero, A. Cunningham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, et al. Photo-realistic single image super-resolution using a generative adversarial network. arXiv preprint, 2016. [6] S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, S. Jain, J. Sotelo, A. Courville, and Y. Bengio. Samplernn: An unconditional end-to-end neural audio generation model. arXiv preprint arXiv:1612.07837, 2016. [7] A. v. d. Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. v. d. Driessche, E. Lockhart, L. C. Cobo, F. Stimberg, et al. Parallel wavenet: Fast high-fidelity speech synthesis. arXiv preprint arXiv:1711.10433, 2017. [8] T. L. Paine, P. Khorrami, S. Chang, Y. Zhang, P. Ramachandran, M. A. Hasegawa-Johnson, and T. S. Huang. Fast wavenet generation algorithm. arXiv preprint arXiv:1611.09482, 2016. [9] D. Rethage, J. Pons, and X. Serra. A wavenet for speech denoising. arXiv preprint arXiv:1706.07162, 2017. [10] T. Salimans, A. Karpathy, X. Chen, and D. P. Kingma. Pixelcnn++: Improving the pixelcnn with discretized logistic mixture likelihood and other modifications. arXiv preprint arXiv:1701.05517, 2017. [11] A. Shocher, N. Cohen, and M. Irani. zero-shot superresolution using deep internal learning. arXiv preprint arXiv:1712.06087, 2017. [12] A. Van Den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu. Wavenet: A generative model for raw audio. arXiv preprint arXiv:1609.03499, 2016. [13] A. van den Oord, N. Kalchbrenner, L. Espeholt, O. Vinyals, A. Graves, et al. Conditional image generation with pixel-cnn decoders. In Advances in Neural Information Processing Systems, pages 4790 4798, 2016. [14] C. Veaux, J. Yamagishi, K. MacDonald, et al. Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit. 2017. [15] F. Weninger, H. Erdogan, S. Watanabe, E. Vincent, J. Le Roux, J. R. Hershey, and B. Schuller. Speech enhancement with lstm recurrent neural networks and its application to noise-robust asr. In International Conference on Latent Variable Analysis and Signal Separation, pages 91 99. Springer, 2015. [16] W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer, A. Stolcke, D. Yu, and G. Zweig. The microsoft 2016 conversational speech recognition system. In Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on, pages 5255 5259. IEEE, 2017. [17] L.-C. Yang, S.-Y. Chou, and Y.-H. Yang. Midinet: A convolutional generative adversarial network for symbolicdomain music generation. In Proceedings of the 18th International Society for Music Information Retrieval Conference (ISMIR2017), Suzhou, China, 2017.

相關文章
相關標籤/搜索