論文地址:使用半監督堆棧式自動編碼器實現包含記憶的人工帶寬擴展html
做者:Pramod Bachhav, Massimiliano Todisco and Nicholas Evans前端
博客做者:凌逆戰git
博客地址:http://www.javashuo.com/article/p-eetdyodc-r.htmlgithub
爲了提升寬帶設備從窄帶設備或基礎設施接收語音信號的質量,開發了人工帶寬擴展(ABE)算法。以動態特徵或從鄰近幀捕獲的explicit memory(顯式內存)的形式利用上下文信息,在ABE研究中很常見,可是使用額外的信息會增長複雜性,並會增長延遲。之前的工做代表,無監督的線性降維技術有助於下降複雜性。本文提出了一種利用Stacked Auto-Encoder(堆疊自動編碼器)進行降維的半監督非線性方法。與之前的工做進一步對比,它對原始頻譜進行操做,從原始頻譜中以數據驅動的方式學習低維窄帶表示。三種不一樣的客觀語音質量指標代表,新特徵能夠與標準迴歸模型相結合來提升ABE的性能。學習到的特徵和缺失的高頻成分之間的相互信息也獲得了改善,非正式的聽力測試證明了語音質量獲得了改善。算法
雖然傳統的窄帶(NB)電話基礎設施的帶寬被限制在0.3-3.4kHz,但今天的寬帶(WB)技術支持使用從50Hz-7kHz擴展的帶寬來提升語音質量。爲了提升寬帶設備與NB設備或基礎設施一塊兒使用時的語音質量,研究了人工帶寬擴展(ABE)算法。利用兩個[1]之間的相關性,ABE利用現有NB份量估計3.4kHz以上缺失的高頻份量,一般採用從WB訓練數據中學習的迴歸模型。數據庫
基於源濾波器模型的ABE方法估計了分離的頻譜包絡和激勵份量[2,3]。其餘ABE方法直接做用於推導出複雜的短時間頻譜估計,例如使用傅里葉變換(STFT)[4,5]或constant-Q變換[6]。與短時間譜估計相補充的是某種形式的contextual information(上下文信息)或menory(記憶),能夠用來提升HB份量估計的可靠性。一些特定的後端迴歸模型,如隱馬爾可夫模型(HMMs)[7,8]和深度神經網絡(DNNs)[9 11],以時間信息的形式捕捉memory。一些DNN解決方案,例如[4,12,13],在前端捕獲memory,例如,經過增量特性或來自相鄰幀的靜態特性。在研究了ABE[14]的前端特徵提取以後,[15 17]的工做經過信息論分析研究了memory包含的優勢。本研究在固定維數的約束下,經過增量特徵證實了memory包含的好處。然而,爲了適應動態增量特性,memory的包含須要丟失高階靜態HB特性。咱們本身的工做[18]定量地分析了固定ABE解決方案中顯式內存包含的好處。該工做還解決了延遲和複雜性問題。使用主成分分析(PCA)來管理複雜性,以便在不增長特徵維數的狀況下歸入memory;迴歸複雜度不受影響。PCA是一種無監督的線性降維方法,它的目標只是生成一個低維表示,儘量保留輸入表示的變化。本文研究的假設是,監督或半監督和非線性降維技術爲學習專門針對ABE的低維表示提供了可能,從而得到更好的性能。後端
自動編碼器(AEs)是一種愈來愈受歡迎的非線性降維方法,已被普遍應用於許多語音處理任務,如音素/語音識別[19 21]和語音合成[22]。這些例子中常見的是使用AEs學習所謂的瓶頸特性,即針對模式識別和分類定製的緊湊特性表示。本論文研究了用堆疊(deep)AEs來下降ABE的非線性維數,特別是用通過半監督訓練的堆疊(deep)自動編碼器。咱們的目標是網絡
(i)在緊湊、低維的表示中利用memory,以提升估計的HB部分的可靠性;app
(ii)直接從原始頻譜系數而不是手工製做的特徵中學習NB特徵。經過客觀評價、信息論方法和非正式的聽力測試來評估這兩篇文章的價值。框架
本文的其他部分組織以下。第2節描述了一個基線ABE算法。第3節展現瞭如何應用半監督堆疊AEs來提升其性能。第4節實驗工做,第5節結果,第6節結論。
圖1:包含memory的基線ABE系統框圖
圖1顯示了基線ABE系統。它與[18]中提出的基於源濾波器模型的方法是一致的。因爲上面提供了完整的細節,因此這裏只提供一個簡要的概述。該算法由訓練、估計和再合成三個部分組成。
訓練分別使用NB和WB幀frame-blocked(阻塞信號)$x_t$和$y_t$進行,其中t爲時間指標。採用10 log-Mel濾波能量係數(logMFE)對NB份量進行參數化($X_t^{NB}$--訓練框架的頂層)。經過選擇線性預測(SLP)[23]對HB份量進行參數化,獲得9個線性預測(LP)係數和一個增益參數($Y_t^{HB}$ -訓練框架的底端)。NB和HB特徵通過均值和方差正態化($mvn_x$和$mvn_y$),獲得$X_{t,mvn}^{NB}$和$Y_{t,mvn}^{HB}$。將t時刻的NB特徵與從$\delta $相鄰幀中提取的特徵串聯起來,獲得
$$X_{t,conc\_\delta }=[X_{t-\delta ,mvn}^{NB},...,X_{t ,mvn}^{NB},...,X_{t+\delta ,mvn}^{NB}]^T$$
爲了限制複雜性,採用PCA(主成分分析法)將$X_{t,conc\_\delta}$降爲10維特徵$X_{t,pca\_\delta}^NB$。主成分分析矩陣$W_{PCA}$是從訓練數據中學習而來,在估計步驟中保持不變。最後,使用串聯$Z=[X_{t,pca\_\delta}^{NB}, Y_{t,mvn}^{HB}]^T$從訓練數據中學習128份量全協方差高斯混合模型(GMM)。
對上採樣過的NB信號$\hat{x}$進行估計。按照訓練中相同的NB處理和memory inclusion進行處理獲得10維特徵$\hat{X}_{t,pca\_\delta}^{NB}$。而後將訓練中學習的GMM參數定義的傳統迴歸模型[2]用於估計HB特徵$\hat{Y}_{t,mvn}^{HB}$。利用訓練獲得的均值和方差,採用逆均值和方差歸一化($mvn_y^{-1}$)估計HB LP係數$\hat{a}^{HB}$和增益$\hat{g}^{HB}$。
根據圖1中編號塊所示的三個不一樣步驟進行從新合成。首先(框1)由NB LP參數$\hat{g}^{NB}$、$\hat{a}^{NB}$和估計的HB參數$\hat{g}^{HB}$、$\hat{a}^{HB}$定義的$\hat{x}_t$的NB和HB功率譜估計缺失WB功率譜。而後利用逆快速傅里葉反變換(IFFT)和Levinson-Durbin遞歸,從WB功率譜中獲得估計的WB參數$\hat{g}^{WB}$和$\hat{a}^{WB}。第二(框2)採用由$\hat{g}^{NB}$和$\hat{a}^{NB}$定義的LP分析濾波器獲得NB激勵$\hat{u}_t^{NB}$。而後應用頻譜平移[3]和高通濾波器(HPF)獲得HB激勵份量$\hat{u}_t^{HB}$,在適當的延遲D後加入$\hat{u}_t^{NB}$獲得擴展的WB激勵$\hat{u}_t^{WB}$。最後(框3)使用$\hat{g}^{WB}$和$\hat{a}^{WB}$定義的合成濾波器對$\hat{u}_t^{WB}$進行濾波,以從新合成語音幀$\hat{t}_t$。重疊和相加(OLA)獲得擴展的WB語音$\hat{y}$。
基線ABE算法採用無監督的線性降維方法,使得在訓練中學習並用於估計的標準迴歸模型的複雜度因爲memory inclusion而保持不變。本文的工做是利用一種半監督的、非線性的、使用堆疊式自動編碼器的降維技術來提升ABE的性能。
自動編碼器(AE)是一種普遍用於學習高級數據表示的人工神經網絡。聲發射由編碼器和解碼器組成。編碼器f()根據:
$$公式1:y=f_{\theta}(x)=s(Wx+b)$$
其中o = fW;bg爲權矩陣W和偏置向量b的參數集,函數s爲非線性變換。編碼器後面是解碼器g 0(),其目的是根據所學習的表示y重構原始輸入:
$$z=g_{{\theta}'}(y)={s}'({W}'y+{b}')$$
其中0 = fW0;根據輸入x的性質,b0g和s0能夠是線性變換,也能夠是非線性變換。利用均方偏差(MSE)目標損失函數對0g進行優化,該函數反映了輸入和重建輸出之間的差別。
更深層次的網絡天生具備更強的能力來學習高度非線性和複雜的函數[24]。經過疊加多層編碼器和解碼器,能夠增長聲發射的深度,從而造成疊加式自動編碼器(SAE)。然而,隨着網絡的增加,網絡要找到全局最小[25]變得愈來愈困難。
爲了緩解這些問題,一般採用某種形式的預訓練來初始化網絡權值。流行的解決方案包括使用受限玻爾茲曼機(RBMs)[25]進行預培訓,以及對AEs[26]進行降噪。層在訓練前堆積,而後進行微調。其餘工做研究了網絡初始化的替代方法,如[27,28]。
經過基於重構的目標損失函數,SAEs能夠學習輸入和重構輸出之間的簡單映射,而不是有意義的高級表示[26]。此外,因爲沒有監督,從傳統SAE的瓶頸層提取的特徵沒有明確設計用於分類或迴歸;在這方面,它們可能不是最優的。在[24]中,部分監督的AEs預訓練被證實是有益的,特別是對迴歸任務。
在此基礎上,咱們探索了SAEs的半監督訓練,以便學習專門爲迴歸建模和ABE設計的緊湊表示。獲得的具備兩個輸出層的半監督SAE (SSAE)體系結構如圖2所示。一個輸出層學習用傳統的SAE重構輸入(AE輸出),另外一個輸出層學習估計缺失的HB特徵(迴歸輸出)。這是經過給出的聯合目標損失函數來實現的
其中Lreg和Lae分別爲迴歸和AE輸出的目標損失函數,其中c2 [0];1]加權我的損失的貢獻。
SSAE體系結構還能夠用於直接從迴歸層估計HB組件。在[29]中報道了一個相似的基於CNN的體系結構,該結構設計用於規範化短i-向量到長i-向量的映射,用於演講者的二值化任務。這裏的重點是不一樣的,即。,規範/監督降維,以保存對ABE相當重要的信息。這些信息被一個標準的迴歸模型所利用。爲了研究基於ssa的降維方法的優勢,將圖1(紅色框)中的權值矩陣WPCA替換爲SSAE編碼器(圖2中的紅色框),而後對提取的低維特徵進行均值和方差歸一化。GMM的訓練和估計按照第2節中描述的相同方式執行。本文還報道了這種方法的一個變體,即低維NB表示直接從NB對數功率譜(LPS)係數而不是logMFE特徵獲得。這是經過用LPS係數替換logMFE特性來實現的。
實驗旨在比較使用PCA降維MPCA 2的基線ABE系統與使用SSAE降維MAE 2的基線ABE系統的性能。系統mpca2和MAE 2分別使用^X NB t;pca 2和^X NB t;ae 2;mvn特性。本節描述用於ABE實驗的數據庫、SSAE配置細節和度量。
4.1 數據集
TIMIT數據集[30]用於培訓和驗證。將訓練集中的3696個話語和測試集中的1152個話語(不含核心測試子集)按照[6]中描述的步驟處理並行的WB和NB語音信號,訓練ABE解。TIMIT核心測試子集(192條語句)用於驗證和優化網絡參數。受[31]中提出的分析方法的啓發,使用由1378個語音組成的聲學不一樣TSP數據庫[32]進行測試。將TSP數據降採樣至16kHz,並進行相似的預處理,獲得並行的WB和NB數據。
4.2 SSAE訓練和配置
SSAE是使用Keras工具包[33]實現的。與以前的工做[18]一致,特性Xt;將t時刻的conc2(由前兩幀和後兩幀拼接而成)輸入SSAE。AE輸出與輸入相同,迴歸輸出設爲HB feature Y HB t;mvn。爲了提升收斂速度到全局最小值,根據[28]中描述的方法對SSAE進行初始化。優化是根據[34]中描述的程序進行的,標準學習率爲0.001,動量爲0.9,MSE標準。
咱們研究了兩種6層對稱SSAE結構,它們在隱層中具備不一樣的單元數:1)5十二、25六、十、25六、512 (Arch-1);2) 102四、5十二、十、5十二、1024 (Arch-2)。輸出層由50個(AE)和10個(迴歸)單元組成。隱層具備tanh或ReLU激活單元,而輸出層具備線性激活單元。研究了輟學(dr)[35]和批量標準化[36]技術,以防止過分擬合。當驗證損失在連續兩個時點之間增長時,學習率下降了一半。迴歸和AE損失權重均設爲c=0.5。網絡被訓練了30個時代。
4.3 度量
業績報告是根據客觀評價。目標光譜失真測量包括:均方根對數光譜失真(RMS-LSD);所謂的COSH測度(對稱版的Ikatura-Saito失真)[37]計算的頻率範圍爲3.4-8kHz,並將WB擴展到感知分析的語音質量算法[38]。後者給出了平均意見得分的客觀估計(mo - lqowb)。經過互信息(MI)[14]測量SSAE和PCA表示與HB特徵的相關性。
表1顯示了激活(bn-a)以後或激活(bn-b)以前執行的兩種不一樣體系結構和四種不一樣的dropout (dr)和批處理規範化組合的MSE的驗證性能。在全部隱藏層以前使用Dropout層。相對較低的MSE值是在沒有退出或批量標準化(配置A)的狀況下實現的,儘管對於具備ReLU激活的Arch-2來講性能不好。在沒有批處理規範化(configuration D)的狀況下使用dropout會致使網絡的非規範化,特別是對於ReLU激活。相似的觀察在[31]中也有報道。使用任何一種沒有退出的批處理正常化方法均可以獲得較低的MSE值,最好的結果是使用bn-b配置(C)獲得的。本文其他部分報告的全部結果都與此配置有關。
表1:不一樣SSAE配置的平均MSE,包括體系結構1和體系結構2,具備ReLU或tanh激活函數,具備或不具備dropout (dr)和batch normalisation (bn)(在(a)激活後或激活前)。dr值表示被設置爲0的隨機隱藏單元的分數。使用驗證數據集對評估結果進行了說明。
從測試集以及基線MPCA 2和基於ssa的MAE 2到ABE方法中得到的性能指標如表2所示。只有一個例外,光譜失真度量結果顯示SSAE值低於基線值。SSAE系統的莫斯- lqowb評分始終較高。激活tanh的Arch-2 SSAE系統性能最好。不幸的是,儘管客觀表現指標有使人信服的改進,非正式的聽力測試顯示基線和SSAE系統產生的語音信號質量之間幾乎沒有明顯的差別。
表2:目標性能度量結果。在dB中,RMS-LSD和dCOSH是平均光譜失真度量(低值表示更好的性能),而莫斯- lqowb值反映質量(高值表示更好的性能)。
表3顯示了使用LPS輸入(而不是logMFE特性)訓練的兩種性能最佳的SSAE配置Arch-1C和Arch-2C(都是tanh激活)的目標性能度量。失真測量值始終較低,而莫斯- lqowb評分始終高於全部其餘基於ssa的系統的結果。與使用logMFE功能的SSAE系統的結果相反,非正式聽力測試顯示,與使用基線ABE系統生成的語音相比,語音質量有明顯改善。在logMFE和LPS輸入上運行的基線和SSAE系統產生的帶寬擴展語音的例子能夠在網上找到。
表3:使用原始對數功率譜(LPS)輸入代替對數- mel濾波能量(logMFE)對SSAE進行客觀評價的結果。
最後一組結果旨在進一步驗證客觀和非正式聽力測試的結果。這是經過觀察改善之間的互信息(MI)和真正的學會了NB表示HB表示測量使用測試集。128 -組件fullcovariance GMM和聯合訓練向量由學會NB和真正的HB特性用於MI估計如[18]所述。表4所示的MI結果代表,使用LPS輸入訓練tanh激活的Arch-2C SSAE系統的MI相對於基線系統增長了23%。這一結果證明了上述發現,即對原始光譜輸入進行操做的半監督技術可以學習更好的表示,從而提升ABE性能。
表4:互信息評估結果。我(X;表示特徵X與特徵Y之間的MI。
提出了一種用於人工帶寬擴展的非線性半監督降維方法。進一步利用疊置自編碼器學習高階表示的能力,直接從原始光譜中學習緊湊窄帶特徵。該方法的優勢經過不一樣的客觀指標獲得了證實,並經過非正式聽力測試的結果獲得了證明。信息理論分析證明了新特徵的有效性。在不增長複雜度的狀況下,標準的迴歸模型可使用以數據處理方式從原始光譜中提取的特徵。利用潛在的光譜模型轉換及其進一步優化來學習ABE的特性應該是咱們將來的重點。進一步的工做還應該研究半監督的自動編碼器與非監督或部分監督的訓練前方法的結合。這些可能提供了更大的潛力,以提升人工帶寬擴展語音的質量。
[1] Y. Cheng, D. O’Shaughnessy, and P. Mermelstein, 「Statistical recovery of wideband speech from narrowband speech,」 IEEE Trans. on Speech and Audio Processing, vol. 2, no. 4, pp. 544–548, 1994.
[2] K.-Y. Park and H. Kim, 「Narrowband to wideband conversion of speech using GMM based transformation,」 in Proc. of IEEE
Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP),vol. 3, 2000, pp. 1843–1846.
[3] P. Jax and P. Vary, 「On artificial bandwidth extension of telephone speech,」 Signal Processing, vol. 83, no. 8, pp. 1707–1719, 2003.
[4] K. Li and C.-H. Lee, 「A deep neural network approach to speech bandwidth expansion,」 in Proc. of IEEE Int. Conf. on Acoustics,Speech and Signal Processing (ICASSP), 2015, pp. 4395–4399.
[5] R. Peharz, G. Kapeller, P. Mowlaee, and F. Pernkopf, 「Modeling speech with sum-product networks: Application to bandwidth extension,」 in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing, 2014, pp. 3699–3703.
[6] P. Bachhav, M. Todisco, M. Mossi, C. Beaugeant, and N. Evans, 「Artificial bandwidth extension using the constant Q transform,」 in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 5550–5554.
[7] C. Ya˘gli and E. Erzin, 「Artificial bandwidth extension of spectral envelope with temporal clustering,」 in Proc. of IEEE Int. Conf.on Acoustics, Speech, and Signal Processing (ICASSP), 2011, pp.5096–5099.
[8] I. Katsir, D. Malah, and I. Cohen, 「Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation,」 in Proc. of Int. Workshop on Acoustic Signal Enhancement(IWAENC). VDE, 2012, pp. 1–4.
[9] Y. Wang, S. Zhao, D. Qu, and J. Kuang, 「Using conditional restricted boltzmann machines for spectral envelope modeling in speech bandwidth extension,」 in Proc. of IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), 2016, pp.5930–5934.
[10] Y. Gu, Z.-H. Ling, and L.-R. Dai, 「Speech bandwidth extension using bottleneck features and deep recurrent neural networks.」 in Proc. of INTERSPEECH, 2016, pp. 297–301.
[11] Y. Wang, S. Zhao, J. Li, J. Kuang, and Q. Zhu, 「Recurrent neural network for spectral mapping in speech bandwidth extension,」 in Proc. of IEEE Global Conf. on Signal and Information Processing(GlobalSIP), 2016, pp. 242–246.
[12] B. Liu, J. Tao, Z. Wen, Y. Li, and D. Bukhari, 「A novel method of artificial bandwidth extension using deep architecture,」 in Sixteenth Annual Conf. of the Int. Speech Communication Association,2015.
[13] J. Abel, M. Strake, and T. Fingscheidt, 「Artificial bandwidth extension using deep neural networks for spectral envelope estimation,」 in Proc. of Int. Workshop on Acoustic Signal Enhancement(IWAENC). IEEE, 2016, pp. 1–5.
[14] P. Jax and P. Vary, 「Feature selection for improved bandwidth extension of speech signals,」 in Proc. IEEE Int. Conf. on Acoustics,Speech, and Signal Processing (ICASSP), 2004, pp. I–697.
[15] A. Nour-Eldin, T. Shabestary, and P. Kabal, 「The effect of memory inclusion on mutual information between speech frequency bands,」 in Proc. of IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), vol. 3, 2006, pp. III–III.
[16] A. Nour-Eldin and P. Kabal, 「Objective analysis of the effect of memory inclusion on bandwidth extension of narrowband speech,」 in Proc. of INTERSPEECH, 2007, pp. 2489–2492.
[17] ——, 「Mel-frequency cepstral coefficient-based bandwidth extension of narrowband speech,,」 in Proc. of INTERSPEECH,2008, pp. 53–56.
[18] P. Bachhav, M. Todisco, and N. Evans, 「Exploiting explicit memory inclusion for artificial bandwidth extension,」 in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP),2018, pp. 5459–5463.
[19] J. Gehring, Y. Miao, F. Metze, and A. Waibel, 「Extracting deep bottleneck features using stacked auto-encoders,」 in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP),2013, pp. 3377–3381.
[20] T. Sainath, B. Kingsbury, and B. Ramabhadran, 「Auto-encoder bottleneck features using deep belief networks,」 in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP),2012, pp. 4153–4156.
[21] D. Yu and M. Seltzer, 「Improved bottleneck features using pretrained deep neural networks,」 in Twelfth Annual Conf. of the Int.Speech Communication Association, 2011.
[22] S. Takaki and J. Yamagishi, 「A deep auto-encoder based lowdimensional feature extraction from fft spectral envelopes for statistical parametric speech synthesis,」 in Proc. of IEEE Int. Conf.on Acoustics, Speech and Signal Processing (ICASSP), 2016, pp.5535–5539.
[23] J. Markel and A. Gray, Linear prediction of speech. Springer Science & Business Media, 2013, vol. 12.
[24] Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle, 「Greedy layer-wise training of deep networks,」 in Advances in neural information processing systems, 2007, pp. 153–160.
[25] G. Hinton and R. Salakhutdinov, 「Reducing the dimensionality of data with neural networks,」 science, vol. 313, no. 5786, pp. 504–507, 2006.
[26] P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, and P.-A. Manzagol,「Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion,」Journal of Machine Learning Research, vol. 11, no. Dec, pp.3371–3408, 2010.
[27] X. Glorot and Y. Bengio, 「Understanding the difficulty of training deep feedforward neural networks,」 in Proc. of the Thirteenth Int.Conf. on Artificial Intelligence and Statistics, 2010, pp. 249–256.
[28] K. He, X. Zhang, S. Ren, and J. Sun, 「Delving deep into rectifiers:Surpassing human-level performance on imagenet classification,」 in Proc. of the IEEE int. conf. on computer vision, 2015, pp. 1026–1034.
[29] J. Guo, U. A. Nookala, and A. Alwan, 「CNN-based joint mapping of short and long utterance i-vectors for speaker verification using short utterances,」 Proc. of INTERSPEECH, pp. 3712–3716, 2017.
[30] J. Garofolo, L. Lamel, W. Fisher, J. Fiscus, and D. Pallett,「DARPA TIMIT acoustic-phonetic continous speech corpus CDROM.NIST speech disc 1-1.1,」 NASA STI/Recon technical report N, vol. 93, 1993.
[31] J. Abel and T. Fingscheidt, 「Artificial speech bandwidth extension using deep neural networks for wideband spectral envelope estimation,」 IEEE Trans. on Audio, Speech, and Language Processing,vol. 26, no. 1, pp. 71–83, 2018.
[32] P. Kabal, 「TSP speech database,」 McGill University, Database Version : 1.0, pp. 02–10, 2002.
[33] F. Chollet et al., 「Keras,」 https://github.com/keras-team/keras,2015.
[34] D. Kingma and J. Ba, 「Adam: A method for stochastic optimization,」 arXiv preprint arXiv:1412.6980, 2014.
[35] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, 「Dropout: A simple way to prevent neural networks from overfitting,」 The Journal of Machine Learning Research,vol. 15, no. 1, pp. 1929–1958, 2014.
[36] S. Ioffe and C. Szegedy, 「Batch normalization: Accelerating deep network training by reducing internal covariate shift,」 in Int. conf.on machine learning, 2015, pp. 448–456.
[37] R. Gray, A. Buzo, A. Gray, and Y. Matsuyama, 「Distortion measures for speech processing,」 IEEE Trans. on Acoustics, Speech,and Signal Processing, vol. 28, no. 4, pp. 367–376, 1980.
[38] 「ITU-T Recommendation P.862.2 : Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs,」 ITU, 2005.