論文題目:2018_用於音頻超分辨率的時頻網絡html
博客做者:凌逆戰redis
博客地址:http://www.javashuo.com/article/p-ztdhlpjq-dc.html算法
音頻超分辨率(即帶寬擴展)是提升音頻信號時域分辨率的一項具備挑戰性的任務。最近的一些深度學習方法經過將任務建模爲時域或頻域的迴歸問題,取得了使人滿意的結果。在本文中,咱們提出了一種新的模型體系結構——時頻網絡(TFNet,Time-Frequency Network),這是一種在時域和頻域同時進行監控的深度神經網絡。咱們提出了一種新的模型體系結構,容許兩個域共同優化。結果代表,咱們的方法在數量和質量上都優於目前最早進的方法。設計模式
索引術語:帶寬擴展,音頻超分辨率,深度學習網絡
超分辨率(SR)是從低分辨率(LR)輸入重建高分辨率(HR)數據的任務。這是一個具備挑戰性的任務,由於它是ill-posed的性質,特別是當上採樣因子很高的時候。經過處理SR問題,咱們能夠得到對數據先驗的理解,並引導相關領域的改進,如壓縮和生成建模。架構
近年來,圖像超分辨率算法在計算機視覺領域獲得了普遍的關注,並將SR建模爲一種深度神經網絡迴歸任務,取得了顯著的成功。在這項工做中,咱們探索了音頻數據的相似SR任務(即學習從LR到HR音頻幀的映射)。爲了可視化重建,在圖1中咱們展現了LR輸入、HR重建和ground truth的頻譜圖。app
圖1:LR輸入(頻率4kHz以上缺失),HR重構,HR ground truth。咱們的方法成功地從LR音頻信號中恢復了高頻份量。函數
Li[1]等人提出了一種深度神經網絡來學習頻譜幅值從LR到HR的映射,徹底忽略缺失的高頻份量的相位。在[2]中,Kuleshov等人提出了一種深度神經網絡來直接在時域中學習LR到HR的映射。雖然這些模型顯示了有但願的結果,但每一個模型都只在時域或頻域工做,並側重於信號的不一樣方面。目前也只有這兩我的提供了代碼。post
爲了充分利用時域和頻域信息,咱們提出了時頻網絡(TFNet),它是一種深度神經網絡,能夠選擇什麼時候將時域和頻域信息用於音頻SR。性能
乍一看,在頻域和時域建模彷佛是一個冗餘的表示;從Parseval定理可知,預測偏差的L2差別,不管是在頻域仍是在時域都是徹底相同的。然而,從LR到HR在時域或頻域的迴歸解決了一個很是不一樣的問題。在時域上,它相似於圖像的超分辨率任務,將音頻塊從LR映射到HR。另外一方面,頻域SR與語意圖像修復任務相似[3,4]。給定頻譜的低頻份量,輸出高頻份量,如圖2所示。所以,爲了充分利用這兩種方法的優勢,咱們建議在時域和頻域內對音頻SR進行聯合建模。
圖2:圖像SR的輸入輸出,語義圖像修復,音頻SR的時域和頻域說明。時域中的音頻SR相似於圖像SR,其中LR輸入中缺乏「edges邊」。另外一方面,譜域音頻SR能夠看做是譜圖的圖像修復,即給定底層低頻「圖像」,對剩餘圖像進行預測。
頻帶擴展
語音社區將音頻超分辨任務做爲帶寬擴展進行研究。提出了利用低頻[5]估計高頻份量的各類方法。如線性映射[6,7]、混合模型[8,9,10]、神經網絡[11,12,1,2]。
深度神經網絡的單圖像超分辨率
深度卷積神經網絡(CNNs)是目前單圖像超分辨率研究的最新進展。已經提出了許多體系結構[13,14,15]。這些模型都是徹底卷積的,並帶有早些時候的skip / redisual鏈接。
深度神經網絡的語義圖像修復
深度神經網絡在語義圖像修復任務中也表現出了較強的性能。利用CNNs,[3,4]證實了預測圖像中掩蔽區域的可能性。與超級分辨率相似,這些模型也是徹底卷積的。從這些模型中得到靈感,咱們的深層網絡架構也遵循相似的設計原則。
咱們將音頻SR定義爲迴歸任務,即預測HR音頻幀,$y\in \mathbb{R}^L$,給定LR音頻幀,$x\in \mathbb{R}^{L/R}$,其中$R$是下采樣因子。
咱們提出時頻網絡(TFNet),這是一個徹底可微的網絡,能夠端到端的訓練。如圖3所示,設$\Theta $爲模型中的全部參數,咱們的模型由一個基於全卷積的編碼器-解碼器網絡$H(x; \Theta )$構成。對於給定的LR輸入x,H預測HR音頻,重建$\hat{z}$和HR頻譜幅度$\hat{m}$。利用咱們提出的頻譜融合層合成最終的輸出。
圖3:時頻網絡結構。TFNet同時利用時域和頻域來完成音頻信號的重構,它包含一個明確建模重構頻譜幅值的分支,而其餘的分支建模重構時域音頻。最後將這兩個分支的輸出與咱們的頻譜融合層相結合,合成高分辨率的輸出。
頻譜融合層
頻譜融合層結合$\hat{z}$和$\hat{m}$輸出最終的重建$\hat{y}$,以下圖所示:
$$\begin{aligned} M=& w \odot|\mathscr{F}(\hat{z})|+(1-w) \odot \hat{m} \\ \hat{y} &=\mathscr{F}^{-1}\left(M e^{j \angle \mathscr{F}(\hat{z})}\right) \end{aligned}$$
其中$\mathscr{F}$表示傅里葉變換,$\odot$是元素的乘法運算,$w$是可訓練參數。
這一層是可微的,能夠端到端的訓練。關鍵的優勢是,該層可強制網絡對波形的頻譜幅度進行建模,而模型的其他部分能夠在時域內建模相位。
咱們對網絡體系結構的設計是基於這樣的觀察:卷積層只能捕獲局部關係,特別擅長捕獲視覺特徵。當咱們利用短時傅里葉變換對賦值和相位進行可視化處理時,幅值明顯的視覺結構,而相位沒有,所以,咱們只在譜域中對幅值進行建模。
頻譜複製器
如前所述,卷積層一般捕獲局部關係(即,輸入-輸出關係的範圍受到感覺野的限制)。這致使了一個問題,由於咱們想要輸出的高頻份量依賴於輸入的低頻份量。例如,當向上採樣4倍時,接受域至少須要爲總頻率bin的3/4,這將須要很是大的內核或許多層。爲了解決接受域的問題,咱們將可用的低頻頻譜複製到高頻頻譜中,高頻頻譜最初都是零,如圖4所示。
圖4:在4x SR任務上的頻譜複製層圖解。低頻份量被複制四次以替換零
損失函數
爲了訓練咱們的網絡,咱們利用$l_2$重建損失和權重衰減。總的目標函數是最小化下面關於$\Theta $的損失函數
$$公式1:\mathcal{L}=\sum_{(x, y) \in \mathcal{D}}\|y-\hat{y}(x)\|_{2}+\lambda\|\Theta\|_{2}$$
其中$D$是全部(LR,HR)對的訓練集,$\lambda $是正則化器的加權超參數,在咱們的全部實驗中選擇爲0:0001。
預處理
對於訓練,咱們進行了沉默過濾以丟棄能量閾值爲0.05如下的序列脈衝,計算結果A。咱們發現這提升了訓練的收斂性,並穩定了梯度。對於測試和評估,咱們不過濾沉默。
網絡架構
咱們的網絡由兩個具備類似架構的分支組成;時域分支和頻域分支。爲了公平的比較,咱們的網絡遵循了AudioUNet[2]的架構設計模式,包括編碼器和解碼器塊。爲了保持模型大小大體相同,每一個分支中的過濾器數量減半。咱們的網絡以8192段音頻做爲輸入。
對於頻域分支,咱們對序列進行離散傅里葉變換(DFT)。因爲全部的音頻信號都是實數,因此咱們拋棄了全部負相位的份量,獲得了4097個傅立葉係數。最後,求這些係數的大小。
如前所述,輸入的高頻份量爲零,所以使用頻譜複製器,咱們用低頻份量的副本替換零值。具體來講,對於4x上採樣,咱們在1025到204八、2049到3072和3073到4096重複第1個份量到第1024個份量。第0個份量(直流份量)直接經過網絡,最後融合。
訓練細節
咱們使用流行的Adam 優化器[16]來訓練咱們的網絡。初始學習速率爲$3e^{-5}$,採用多項式學習速率衰減調度,學習速率爲0.5。咱們全部的模特都通過了50萬步的訓練。
數據集和準備
咱們在兩個數據集上評估咱們的方法:VCTK數據集[17]和Piano數據集[18]。
VCTK數據集包含來自109個以英語爲母語的人的語音數據。每一個說話人會讀出大約400個不一樣的句子,每一個說話人的句子也不一樣,總共有44個小時的語音數據。
根據以前的工做[2],咱們將數據分爲88%的培訓6%的驗證和6%的測試,沒有說話人重疊。
對於數據集中的每一個文件,咱們經過以目標較低採樣率的奈奎斯特速率執行帶截止頻率的低通濾波器,將音頻重採樣到較低的採樣率。而後經過雙三次插值將LR序列向上採樣到原始速率。爲了編制訓練(LR, HR)對,咱們從重採樣信號及其對應的原始信號中提取了8192個重疊度爲75%的樣本長度子序列。
對於採樣速率爲16kHz的VCTK數據集,它對應的子序列約爲500ms,每一個子序列的起始距離爲125ms。剩下的50%的序列會被丟棄,由於獲得的數據集太大,沒法有效地訓練。
此外,爲了瞭解模型的性能是否會受到數據多樣性的影響,咱們創建了一個新的數據集(VCTKs),它只包含說話者VCTK的一個子集。這包括大約30分鐘的演講。音頻數據以16kHz的採樣率提供。
鋼琴數據集包含10小時的貝多芬奏鳴曲,採樣率爲16kHz。因爲音樂的重複性,咱們在文件級別上對Piano數據集進行了分割以進行公平的評估。
爲了進行評價,咱們計算了信噪比(SNR)和對數譜距離(LSD)的類似性度量。
在時域內,信噪比捕獲了預測和fround-truth數據之間的加權差。另外一方面,LSD在頻域[19]捕獲預測與fround-truth之間的差別。
$$公式2:\mathrm{LSD}(y, \hat{y})=\frac{10}{L} \sum_{l=1}^{L}\left\|\log _{10} \mathscr{F}\left(y_{l}\right)-\log _{10} \mathscr{F}\left(\hat{y}_{l}\right)\right\|_{2}$$
其中下標$l$表示音頻短窗口段的索引。
結果
根據表1中[1,2]的結果,咱們將咱們的方法與三個不一樣的基線、一個簡單的雙三次插值和兩個深度網絡方法進行了比較。特別地,咱們實驗了不一樣的下采樣率,從4x開始,在這裏質量的降低變得清晰可見。對於VCTK,咱們的方法在4倍上採樣的狀況下比基線方法的信噪比大約高出1.5dB。8倍上採樣甚至比基線 6倍上採樣結果高1.5dB SNR。在Piano數據集上,咱們的方法性能與基線方法至關。須要注意的是,在[2]中的參數數量與咱們的模型相同;這進一步證實了咱們的model架構在表達上更加有效。
表1:對不一樣上採樣率下的測試集進行定量比較。左/右結果爲信噪比/LSD。
表2:消融研究,評估時域和譜域各分支的性能。左/右結果爲信噪比/LSD。
細節分析
此外,爲了確認咱們的網絡架構同時利用了時域和頻域,咱們進行了消融(ablation)研究。咱們經過移除時域或頻域分支來評估模型性能,如表2所示。對於譜支,咱們假設重構時高頻份量爲零相位。
本文提出了一種時頻網絡(TFNet),這是一種深度卷積神經網絡,利用時域和頻域來實現音頻的超分辨。與現有方法相比,咱們的新型頻譜複製和融合層具備更好的性能。最後,TFNet已經證實了具備冗餘表示有助於對音頻信號進行建模。咱們認爲該方法的經驗結果是有趣的和有前途的,這爲進一步的理論和數值分析提供了依據。此外,咱們但願將此觀察推廣到其餘音頻任務,例如音頻生成,目前最早進的WaveNet[20]是一種時域方法。
[1] Kehuang Li, Zhen Huang, Yong Xu, and Chin-Hui Lee,「Dnn-based speech bandwidth expansion and its application to adding high-frequency missing features for automatic speech recognition of narrowband speech,」 in Proc. INTERSPEECH, 2015.[2] Volodymyr Kuleshov, S Zayd Enam, and Stefano Ermon,「Audio super-resolution using neural networks,」, 2017.[3] Deepak Pathak, Philipp Kr¨ahenb¨uhl, Jeff Donahue,Trevor Darrell, and Alexei Efros, 「Context encoders:Feature learning by inpainting,」 in Computer Vision and Pattern Recognition (CVPR), 2016.[4] Raymond A. Yeh, Chen Chen, Teck Yian Lim,Schwing Alexander G., Mark Hasegawa-Johnson, and Minh N. Do, 「Semantic image inpainting with deep generative models,」 in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, equal contribution.[5] Bernd Iser and Gerhard Schmidt, 「Bandwidth extension of telephony speech,」 Speech and Audio Processing in Adverse Environments, pp. 135–184, 2008.[6] Yoshihisa Nakatoh, Mineo Tsushima, and Takeshi Norimatsu,「Generation of broadband speech from narrowband speech using piecewise linear mapping,」 in Fifth European Conference on Speech Communication and Technology, 1997.[7] Yoshihisa Nakatoh, Mineo Tsushima, and Takeshi Norimatsu,「Generation of broadband speech from narrowband speech based on linear mapping,」 Electronics and Communications in Japan (Part II: Electronics), vol. 85,no. 8, pp. 44–53, 2002.[8] Geun-Bae Song and Pavel Martynovich, 「A study of hmm-based bandwidth extension of speech signals,」 Signal Processing, vol. 89, no. 10, pp. 2036–2044, 2009.[9] Hyunson Seo, Hong-Goo Kang, and Frank Soong, 「A maximum a posterior-based reconstruction approach to speech bandwidth expansion in noise,」 in Acoustics,Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014, pp. 6087–6091.[10] Saeed Vaseghi, Esfandiar Zavarehei, and Qin Yan, 「Speech bandwidth extension: Extrapolations of spectral envelop and harmonicity quality of excitation,」 in Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on. IEEE, 2006, vol. 3, pp. III–III.[11] Juho Kontio, Laura Laaksonen, and Paavo Alku, 「Neural network-based artificial bandwidth expansion of speech,」 IEEE transactions on audio, speech, and language processing, vol. 15, no. 3, pp. 873–881, 2007.[12] Bernd Iser and Gerhard Schmidt, 「Neural networks versus codebooks in an application for bandwidth extension of speech signals,」 in Eighth European Conference on Speech Communication and Technology, 2003.[13] Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang, 「Image super-resolution using deep convolutional networks,」 IEEE Trans. Pattern Anal. Mach.Intell., vol. 38, no. 2, pp. 295–307, Feb. 2016.[14] Jiwon Kim, Jung Kwon Lee, and Kyoung Mu Lee, 「Accurate image super-resolution using very deep convolutional networks,」 in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR Oral), June 2016.[15] Wei-Sheng Lai, Jia-Bin Huang, Narendra Ahuja, and Ming-Hsuan Yang, 「Deep laplacian pyramid networks for fast and accurate super-resolution,」 in IEEE Conference on Computer Vision and Pattern Recognition,2017.[16] Diederik Kingma and Jimmy Ba, 「Adam: A method for stochastic optimization,」 arXiv preprint arXiv:1412.6980, 2014.[17] Junichi Yamagishi, 「English multi-speaker corpus for cstr voice cloning toolkit,」 http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html, 2012.[18] Soroush Mehri, Kundan Kumar, Ishaan Gulrajani,Rithesh Kumar, Shubham Jain, Jose Sotelo, Aaron Courville, and Yoshua Bengio, 「Samplernn: An unconditional end-to-end neural audio generation model,」2016, cite arxiv:1612.07837.[19] Augustine Gray and John Markel, 「Distance measures for speech processing,」 IEEE Transactions on Acoustics,Speech, and Signal Processing, vol. 24, no. 5, pp.380–391, 1976.[20] Aron van den Oord, Sander Dieleman, Heiga Zen,Karen Simonyan, Oriol Vinyals, Alexander Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu,「Wavenet: A generative model for raw audio,」 in Arxiv,2016.