Latent Representation Learning For Artificial Bandwidth Extension Using A Conditional Variational Au

博客做者:凌逆戰html

論文地址:https://ieeexplore.ieee.xilesou.top/abstract/document/8683611/前端

地址:http://www.javashuo.com/article/p-kuoxjcec-gm.htmlgit


 

利用條件變分自動編碼器進行人工帶寬擴展的潛在表示學習github

做者:Pramod Bachhav, Massimiliano Todisco and Nicholas Evans算法

摘要

  當寬帶設備與窄帶設備或基礎設施一塊兒使用時,人工帶寬擴展(ABE)算法能夠提升語音質量。大多數ABE解決方案都使用某種形式的memory(記憶),這意味着高維特性表示會增長延遲和複雜性。所以發展了降維技術以保持效率。所以提取緊湊的低維表示,而後與標準迴歸模型一塊兒用於估計高頻段份量。數據庫

  以往的研究代表,某種形式的監督對於優化ABE的降維技術相當重要。本論文研究了條件變分自動編碼器(conditional variational auto-encoders,CVAEs)在監督降維中的首次應用。利用有向圖模型的CVAEs對高維對數譜數據進行建模,提取潛在的窄帶表示法。express

  與其餘降維技術的結果相比,客觀和主觀的評估代表,使用CVAEs學習的潛在機率表示產生的帶寬擴展語音信號質量顯著提升。後端

index Terms(索引項):變分自動編碼器,潛在變量,人工帶寬擴展,降維,語音質量數組

1  介紹

  傳統窄帶(NB)網絡和設備一般支持0.3-3.4kHz的帶寬。爲了提升語音質量,今天的寬帶(WB)網絡支持50Hz-7kHz的帶寬。隨着NB網絡向WB網絡的過渡,須要大量的投資[1],人工帶寬擴展(ABE)算法被開發出來,當WB設備與NB設備或基礎設施一塊兒使用時,能夠提升語音質量。ABE用於從可用NB份量中估計缺失的3.4kHz以上的highband(高帶)(HB)頻率份量,一般使用從大量WB訓練數據中學習的迴歸模型。網絡

  ABE算法要麼使用經典的源濾波器模型[2,3],要麼直接對複雜的短時間頻譜估計進行操做[4,6]。在這兩種方法中,使用contextual information(上下文信息)或memory(記憶),能夠更可靠地估計HB成分。一些特定的back-end(後端)regression(迴歸)模型[7 9]以時間信息的形式捕獲memory,而其餘解決方案[四、十、11]則相反地在front-end(前端)捕獲記憶,例如經過delta特徵或從相鄰幀提取的靜態特徵。雖然memory的使用提升了ABE的性能,但它意味着使用更高維度的特性,所以,ABE迴歸模型更復雜,計算要求更高。考慮到ABE一般須要在電池驅動的設備上運行,這是不可取的。

  爲了減小複雜性的增長,[12,13]研究了在固定維度的約束下,經過delta mel頻率倒譜系數(MFCC)包含記憶。然而,研究發現,互信息的增益被MFCC inversion(轉換)中涉及的重建僞影所抵消[13]。咱們本身的工做[14]提出了一種方法,將memory(記憶)以相鄰幀的靜態特性的形式包含進來。爲了保持效率,採用了降維方法。咱們後續的工做[15]代表,由對數譜系數組成的memory(記憶)可使用半監督堆疊自動編碼器(semi-supervised stacked auto-encoders, SSAE)學習一種緊湊的、低維的ABE特徵表示。本文的工做旨在探索生成建模技術的應用,以進一步提升ABE性能。目標是對高維譜數據(包括memory(記憶))的分佈建模,並提取更高層次、更低維的特徵,從而在不影響複雜性的狀況下提升ABE迴歸模型的可靠性。從本質上講,咱們尋求一種專門針對ABE的降維(DR)形式。

  變分自編碼器(VAEs)及其條件變分自動編碼器(CVAEs)機率深度生成模型可以對複雜的數據分佈進行建模。堆疊式自動編碼器(SAEs)學習的瓶頸特性相比,隱藏表示是機率的,能夠用來生成新的數據。受其在圖像處理中的成功應用[16 18]的啓發,它們在衆多的語音處理領域愈來愈受歡迎,如語音建模與轉換[19,20]、語音轉換[21]、語音合成[22]、語音加強用於語音活動檢測[23]、情感識別[24]和音頻源分離[25]。

  CVAEs經過combination(聯合)潛在變量和條件變量來生成數據。本文工做的思路是經過輔助神經網絡對條件變量進行優化,以學習higher-level(更高層次)的NB特徵,這些特徵是針對ABE任務中缺失HB份量的估計而定製的。這項工做的新貢獻是:

    (i) 第一次將VAEs和CVAEs應用於DR的迴歸任務,如ABE;

    (ii) 將CVAE與probabilistic encoder(機率編碼器)結合,以auriliary(輔助)神經網絡的形式,獲得條件變量;

    (iii) 聯合優化的一種方法;

    (iv) 他們應用於extract(提取)probabilistic(機率)NB潛在表示,以估計在其餘標準ABE框架中丟失的HB數據;

    (v) 所提出的方法來大幅提升ABE性能。

  本文的其他部分組織以下。第2節描述了基線ABE算法。第3節介紹了基於VAE和CVAE的特徵提取方案,第4節實驗,第5節結論。

圖1 基線ABE系統框圖。圖改編自[14]

2  基線系統

  圖1顯示了基線ABE系統。它與[14](做者本身的文章)中提出的基於源濾波器模型的方法是一致的。所以,這裏只提供一個簡要的概述。該算法由 估計 和 合成 兩部分組成。

  Estimation(估計) 使用1024點FFT處理持續時間爲20 ms、採樣率爲16kHz的NB語音幀sNB,extract(提取)200維NB對數功率譜(LPSNB)係數xNB,該係數通過均值和方差歸一化(mvn_x)獲得的$x_{mvn}^{NB}$。在appent(相加)了2個相鄰幀的係數後,獲得1000維concatenate(級聯)向量$x_{conc\_2}^{NB}$。應用降維(DR)技術提取10維的特徵向量$x_{dr\_2}^{NB}$。而後使用傳統的基於GMM的映射技術進行估計[2]獲得歸一化的HB特徵$y_{mvn}^{HB}$由9個LP係數和一個gain(增益)參數組成。而後應用反向均值方差歸一化($mvn_y^{-1}$)獲得HB特徵$y^{HB}$。

  Resynthesis(再合成)

  • 首先(框1),經過選擇性線性預測(SLPNB)從語音幀sNB中獲得LP參數aNB、gNB,用來獲得NB功率譜PSNB而後將其與HB功率譜PSHB(從HB LP參數$\hat{g}^{HB}$,$\hat{a}^{HB}$中estimated(估計)獲得) concatenated(級聯),獲得WB功率譜PSWB,從而估計WB LP參數$\hat{g}^{HB}$,$\hat{a}^{HB}$
  • 其次(框2),HB激勵$\hat{u}^{HB}$是根據NB激勵uNB在6.8kHz時的頻譜translation(轉換)而後通過高通濾波來估算的。而後將NB和HB激勵份量相結合,獲得擴展的WB激勵$\hat{u}^{WB}$。
  • 最後(框3),使用$\hat{g}^{WB}$和$\hat{a}^{WB}$定義的合成濾波器對$\hat{u}^{WB}$進行濾波,以從新合成語音幀$\hat{s}^{WB}$。採用傳統的overlap(重疊)和相加(overlap and add,OLA)技術來產生擴展的WB語音。

3  使用條件變分自動編碼器進行特徵提取

在本節中,咱們展現瞭如何將VAE和CVAE體系結構的聯合學習用於特徵提取,以提升ABE性能。

3.1 VAE(變分自動編碼器)

  變分自動編碼器(variational,VAE)[26]是一個生成模型$p_\theta (x,z)=p_\theta (z)p_\theta (x|z)$(帶參數$\theta$),假設其中的數據$\{x^{(i)}\}_{i=1}^N$由N個i組成。隨機變量$x$的樣本由連續的潛在變量$z$生成,在實際中,求解marginal likelihood(邊界似然)$p_{\theta}(x)$和true posterior density(真實後驗密度)$p_{\theta}(z|x)$都是棘手的,爲了解決這個問題,VAEs使用一個recognition/inference(識別/推理)模型$q_\phi (z|x)$做爲後驗$p_{\theta}(z|x)$的近似值,單個數據點的邊界似然爲:

$$公式1:\log p(x)=-D_{KL}[q_\phi (z|x)||p_\theta(z|x)]+L(\theta,\phi ;x)$$

其中第一項表示近似後驗分佈和真實後驗分佈之間的Kullback-Leibler (KL)散度(DKL)。爲了簡單起見,假設近似後驗和真後驗爲對角多元高斯分佈,用兩種不一樣的深度神經網絡計算其各自的參數$\theta$和$\phi$

  因爲KL散度爲非負的,$L(\theta,\phi ;x)$表示marginal likelihood(邊界似然)的variational(變分)下界,可寫爲:

$$公式2:L(\theta,\phi ;x)=-D_{KL}[q_{\phi} (z|x)||p(z)]+E_{z_\phi }[\log p_\theta(x|z)]$$

其中,$D_{KL}[·]$做爲正則化項,能夠經過分析計算得出。在實際應用中,假定先驗$p(z)=N(z;0,I)$是中心各向同性多元高斯,沒有自由參數。第二項是預期的負重建偏差,必須經過抽樣估計。使用從識別網絡$q_\phi (z|x)$中samples(抽取)的$L$個樣本,將其近似爲$\frac{1}{L}\sum_{l=1}^L\log p_\theta(x|z^{(l)})$。使用可微肯定性映射進行採樣,這樣$z^{{l}}=g_\phi (x,\epsilon ^{(l)})=\mu (x)+\epsilon ^{(l)}\odot \sigma (x)$,其中$\epsilon ^{(l)}\sim N(0,I)$。$\mu _z=\mu (x)$和$\sigma _z=\sigma(x)$是識別網絡$q_\phi (z|x)$的輸出。這被稱爲reparameterization trick(從新參數化技巧)。下界$L$構成目標函數,利用隨機梯度降低算法對參數$\theta$和$\phi $進行優化。

3.2 CVAE(條件變分自動編碼器)

  條件變分自動編碼器(CVAE)是一個條件生成模型$p_\theta(y,z|x)=p_\theta(z)p_\theta(y|x,z)$;對於給定的輸入$x$,從先驗分佈$p_\theta(x)$中提取潛在變量$z$,其中分佈$p_\theta(y|x,z)$生成輸出$y$[17,18]。爲了處理棘手的問題,CVAEs也使用近似後驗$q_\phi (z|x,y)$

  咱們採用了與[18]不一樣的公式,其中咱們假設潛在變量只依賴於輸出變量$y$,即$q_\phi (z|x,y)=q_\phi(z|y)$條件似然$p_\theta(y|x)$的變分下界由下式給出:

$$公式3:\log p_\theta(y|x)\geq L(\theta ,\phi ;x,y)=-D_{KL}[q_\phi (z|y)||p_\theta(z)]+E_{q_\phi (z|y)}[\log p_\theta(y|x,z)]$$

  第二項近似爲$\frac{1}{L}\sum_{l=1}^L\log p_\theta(y|x,z^{(l)})$;其中$z^{(l)}=g_\phi (y,\epsilon ^{(l)})=\mu (y)+\epsilon ^{(l)}\odot \sigma (y)$其中$\epsilon ^{(l)}\sim N(0,I)$和$\sigma _z=\sigma (y)$是識別網絡$q_\phi (y|x,z)$的輸出。實際上,每一個datapoint(數據點)[26]使用L = 1個樣本。CVAE識別網絡$q_\phi (z|y)$和生成網絡$p_\theta(y|x,z)$採用深度神經網絡建模。

  公式3中的輸出分佈$p_\theta(y|x,z)$取高斯函數,平均值爲$f(x,z;\theta)$而且covariance matrix(協方差矩陣)爲$\sigma^2*I$,即$p_\theta(y|x,z)=N(f(x,z;\theta),\sigma ^2*I)$其中$f$是帶有參數$\theta$的x和z的肯定性變換。所以

$$公式3:\log p_\theta(y|x,z)=C-||y-f(x,z;\theta)||^2/\alpha $$

  其中C是一個常數,在優化過程當中能夠忽略。標量$\alpha =2\sigma ^2$能夠看做是KL-divergence(KL散度)與重構項[27]之間的權重因子。

3.3 提取ABE的潛在表示

  本節描述了聯合優化VAE和CVAE的方案,爲了學習到針對ABE的潛在表示。方案如圖2所示。並行訓練數據由NB和WB語句組成,幀長爲20ms,重疊爲10ms。輸入數據$x=x_{conc\_2}^{NB}$由帶memory(記憶)的NB LPS係數組成(如第2節所述),輸出數據$y=y_{mvn}^{HB}$由9個LP係數和一個從並行HB數據中經過選擇性線性預測(SLP)提取的增益參數組成。

  首先對VAE進行訓練,將編碼器$q_{\phi_x}(z_x|x)$(圖2底部)由輸入數據x進行fed(饋送),以預測均值$\mu_{z_x}$和表明後驗分佈$q_{\phi_x}(z_x|x)$的log-variance(對數方差)$\log (\sigma _{z_x}^2)$。將對應的解碼器$p_{\theta_x}(x|z_x)$(圖2未表示出)由輸入$z_x\sim q_{\phi _x}(z_x|x)$進行饋送,以預測分佈$p_{\theta_x}(x|z_x)$的均值$\mu _x$。這能夠看做是初始化編碼器$q_{\phi_x}(z_x|x)$權值的某種形式的預訓練。注意,在這個階段,NB表示$z_x$是在沒有任何HB數據監督的狀況下學習的。而後丟棄VAE解碼器。而後使用編碼器$q_{\phi_x}(z_x|x)$做爲CVAE的條件變量(如圖2所示)。

  而後訓練CVAE對輸出$y$的分佈進行建模。將HB數據y輸入編碼器$q_{\phi_y}(z_y|y)$(圖2左上網絡),以預測均值$\mu_{z_y}$和近似後驗分佈$q_{\phi_y}(z_y|y)$的log-variance(對數方差)$\log (\sigma _{z_y}^2)$。而後使用預測的參數經過reparameterization trick(從新參數化技巧)得到輸出變量$y$的潛在表示$z_y\sim q_{\phi _y}(z_y|y)$(見3.2節)。而後,利用潛在變量$z_x\sim q_{\phi _x}(z_x|x)$做爲CVAE condition(條件)變量。串聯後,$z_x$和$z_y$輸入解碼器$p_{\theta_y}(y|z_x,z_y)$(右上的網絡),爲了預測輸出變量$y$的均值$\mu _y=\mu (z_x,z_y)$。最後,對整個網絡進行訓練,共同窗習參數$\phi _x$、$\phi _y$和$\theta _y$。由式(3)、(4)可得優化下等價變分下界爲:

$$公式5:\log p_{\theta}(y|z_x)\geq L(\theta_y,\phi _y,\phi _x;z_x,y)=-[D_{KL}[q_{\phi _y}(z_y|y)||p_{\theta_y}(z_y)]+||y-f(z_x,z_y;\theta_y)||^2/\alpha]$$

  咱們但願,在公式5的優化過程當中,對編碼器$q_{\phi_x}(z_x|x)$的參數$\phi_x$進行更新,從而使框架學習生成CVAE輸出$\hat{y}$的編碼信息的潛在表示形式$z_x$。

  最後,利用編碼器$q_{\phi_x}(z_x|x)$(圖2中紅色份量表示)對每一個$x$估計他們的潛在表示$z_x$,而後使用聯合向量$z_x$和$y$學習GMM迴歸映射[2]。在ABE估計階段,將DR塊(圖1中的紅色框)由編碼器$q_{\phi_x}(z_x|x)$替代,按照第2節中描述的方式進行估計。注意網絡$q_{\phi_x}(z_x|x)$和$p_{\phi_y}(y|z_x,z_y)$一塊兒組成一個DNN,有兩個隨機層$z_x$和$z_y$,這自己能夠用於ABE,其中$z_y$是在估計階段從先驗分佈$p_{\theta_y}(z_y)=N(0,I)$中採樣的。然而,本文報道的工做的目的是利用CVAE學習到的潛在表示$z_x$做爲ABE的DR技術。目的是保持迴歸模型的計算效率。

圖2 一種基於CVAE的特徵提取方案

4  實驗設置及結果

  本節描述用於ABE實驗的數據集,基線和CVAE配置細節和結果。實驗的目的是比較ABE系統的性能,該系統使用從CVAE中學習到的特性和使用alternative(替代)DR技術的特性。在全部狀況下,性能評估均採用或不採用均值和variance normalisation(方差歸一化)。

4.1 數據集

  TIMIT數據集[28]用於訓練和驗證。使用3693個來自訓練集的話語和1152個來自測試集(不含核心測試子集)的話語,根據[6]中描述的步驟,並行處理WB和NB語音信號,來訓練ABE方案。TIMIT core(核心)測試子集(192條語句)用於驗證和網絡優化。採用1378個語音組成的The acoustically-different(聽覺不一樣) TSP數據庫[29]進行測試。將TSP數據下采樣至16kHz,並進行相似的預處理或得並行的WB和NB數據。

4.2 CVAE配置和訓練

  CVAE體系結構1是使用Keras toolkit[30]實現的。編碼器$q_{\phi_x}(z_x|x)$和$q_{\phi_y}(z_y|y)$由兩個隱藏層組成,分別爲512和256個units(單元),輸入層分別爲1000和10個單元。它們的輸出是由均值$\mu_{z_x}$、$\mu_{z_y}$和對數方差$\sigma _{z_x}$、$\sigma _{z_y}$組成的Gaussian-distributed(高斯分佈)的潛在變量層$z_x$和$z_y$,由10個單位組成。解碼器$p_{\theta_x}(x|z_x)$和$p_{\theta_y}(x|z_y)$有2個隱藏層,包含256和512個單元。輸出層分別有1000和10個單元。全部的隱層都有tanh 激活單元,而高斯參數層有linear 激活單元。log-variances(對數方差)的建模避免了negative(負)方差的估計。

  聯合進行訓練,使用Adam隨機優化技術[31]將公式5的負條件對數似然最小化,初始學習率爲10-3,超參數$\beta _1=0.9$,$\beta _2=0.999$而且$\epsilon =10^{-8}$。根據[32]中描述的方法對網絡進行初始化,以提升收斂速度。爲了防止過分擬合,在每一個激活層以前應用batch-normalisation(批處理規範化)[33]。當驗證損失在連續的5個週期內增長時,學習率下降了一半。首先,VAE對輸入數據x進行50個epoch(週期)的訓練。而後使用輸入x和輸出y數據對full(整個)CVAE進行進一步的50個epoch的訓練。給出最低驗證損失的模型用於後續處理。

  將CVAE性能與alternative(選擇)SAE、SSAE和PCA DR技術進行了比較。根據咱們以前的工做[15],SSAE和SAE設置有一個共同的結構(5十二、25六、十、25六、512)隱藏單元。這些參數是在咱們對[15]的研究基礎上選擇的。

4.3 權重因子$\alpha $分析

  因爲更好地估計HB份量對ABE性能相當重要,所以潛在表示$z_x$應該包含$y$的信息,所以咱們在訓練和測試階段研究了權重因子$\alpha $在reconstruction error(RE)$||y-f(z_y,z_x;\theta_y)||^2$重構偏差上的重要性。

  表1顯示了不一樣的$\alpha $值在epoch結束時的$D_{KL}$和$RE$值,驗證損失最小。$\alpha $值越低,$D_{KL}$值越大,說明approximate posteriorr(近似後驗)$q_{\phi_y}(z_y|y)$與prior先驗分佈$p_{\theta_y}(z_y)=N(0,I)$相差甚遠。這一假設是經過在測試過程當中比訓練過程當中觀察到更高的REs來證明的。這是由於解碼器$p_{\theta_y}(y|z_x,z_y)$利用測試時從prior(先驗)採樣的潛在變量$z_y$重建輸出$y$,而訓練時從approximate(近似)的posterior(後驗)採樣$z_y$。$\alpha $值越大,$D_{KL}$值越低,說明poatweior distribution(後驗分佈)越接近prior distribution(先驗分佈)。經過對訓練和測試階段類似REs的觀察,證明了這一假設。這些發現證明了以前的工做[20]。根據驗證數據集的REs,本文其他部分報告的全部實驗都對應於$\alpha =10$的值。

$\alpha $ 2 5 10 20 30
$D_{KL}$訓練phase(階段) 0.96 0.21 3.3e-4 1.5e-4 9.7e-5
RE訓練階段 4.73 7.40 8.93 8.97 8.97
RE測試階段 11.40 9.85 8.93 8.97 8.97

圖1 在訓練和測試階段,權重因素對DKL和RE的影響。驗證數據集的結果顯示

4.4 客觀評價

  客觀頻譜失真測量包括:均方根對數頻譜失真(RMS-LSD)、所謂的COSH測度(symmetric version(對稱版)的Ikatura-Saito失真)[34]計算的頻率範圍爲3.4-8kHz,並將WB擴展到感知評價語音質量算法[35]。後者給出了平均意見得分的客觀估計(MOS-LQOWB)。

  結果見表2PCA降維後的ABE性能優於SAE和VAE技術,說明了在特徵提取過程當中進行監督學習或所謂的discriminative fine tunig(判別微調)的重要性。MVN在下降PCA ABE系統性能的同時,顯著提升了SAE和SSAE技術的性能。CVAE ABE系統是全部系統中性能最好的,有趣的是,不管有沒有MVN,性能都是穩定的。這多是因爲潛在表示的機率學習。

DR方法 $d_{RMS-LSD(db)}$(db) $d_{COSH(db)}$ MOS-LQOWB

PCA

PCA+MVN

6.95

7.35

1.43

1.45

3.21

3.14

SAE

SAE+MVN

12.45

7.54

2.96

1.50

1.95

3.03

VAE

VAE+MVN

8.64

8.60

1.67

1.67

2.75

2.75

SSAE

SSAE+MVN

10.50

6.80

2011

1.34

2.26

3.28

CVAE

CVAE+MVN

6.59

6.69

1.31

1.30

3.34

3.31

表2 客觀的評估結果。RMS-LSD和$d_{COSH}$是$dB$中的距離度量(數值越低表示性能越好),而MOS-LQOWB值反映質量(數值越大表示性能越好)

4.5 主觀評價

  表3以comparison mean-opinion score(比較平均意見評分,CMOS)的形式展現了比較主觀聽力測試的結果。測試由15名聽衆進行,他們被要求比較使用DT 770 PRO耳機收聽的12對語音信號A和B的質量。他們被要求在-3(更差)到3(更好)的範圍內對信號A相對於B的質量進行評級,評分步驟爲1。全部用於主觀測試的語音文件都在線提供2

比較comparison A-->B CMOS

CVAE-->NB

CVAE-->PCA

CVAE-->SSAE+MVN

CVAE-->WB

0.90

0.13

0.10

-0.96

表3 採用CVAE、SSAE + MVN和PCA DR技術對ABE系統的CMOS進行主觀評價。

  使用CVAE方法擴展帶寬的語音文件質量優於原始NB信號(CMOS爲0.90),但仍低於原始WB信號(CMOS爲-0.96)。可是,CVAE系統的語音質量要優於CMOS分別爲0.13和0.10的其餘系統。

5  總結

  條件變分自動編碼器(CVAE)是用於生成模型的有向圖形模型。本文首次將其應用於計算高效的人工帶寬擴展(ABE)中的降維。當與標準的ABE迴歸模型一塊兒使用時,使用該方法生成的機率潛在表示不須要任何後處理,如均值和方差歸一化。本文所報道的ABE系統產生的語音質量顯著提升,這一結果獲得了客觀評價和主觀評價的證明。改進的緣由是利用CVAE對高維譜系數進行了更好的建模。相當重要的是,它們是在不增長迴歸模型複雜性的狀況下實現的。將來的工做應該將CVAEs與其餘生成模型(如對抗性網絡)進行比較或結合。

6  參考文獻

[1] S. Li, S. Villette, P. Ramadas, and D. J. Sinder, 「Speech bandwidth extension using generative adversarial networks,」 in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 5029–5033.
[2] K.-Y. Park and H. Kim, 「Narrowband to wideband conversion of speech using GMM based transformation,」 in Proc. of IEEE Int. Conf. on Acoustics, Speech, and Signal Processing(ICASSP), 2000, pp. 1843–1846.
[3] P. Jax and P. Vary, 「On artificial bandwidth extension of telephone speech,」 Signal Processing, vol. 83, no. 8, pp. 1707–1719, 2003.
[4] K. Li and C.-H. Lee, 「A deep neural network approach to speech bandwidth expansion,」 in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2015, pp.4395–4399.
[5] R. Peharz, G. Kapeller, P. Mowlaee, and F. Pernkopf, 「Modeling speech with sum-product networks: Application to bandwidth extension,」 in Proc. of IEEE Int. Conf. on Acoustics,Speech and Signal Processing, 2014, pp. 3699–3703.
[6] P. Bachhav, M. Todisco, M. Mossi, C. Beaugeant, and N.Evans, 「Artificial bandwidth extension using the constant Qtransform,」 in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 5550–5554.
[7] I. Katsir, D. Malah, and I. Cohen, 「Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation,」 in Proc. of Int. Workshop on Acoustic Signal Enhancement (IWAENC). VDE, 2012, pp. 1–4.
[8] Y. Gu, Z.-H. Ling, and L.-R. Dai, 「Speech bandwidth extension using bottleneck features and deep recurrent neural networks.,」 in Proc. of INTERSPEECH, 2016, pp. 297–301.
[9] Y. Wang, S. Zhao, J. Li, J. Kuang, and Q. Zhu, 「Recurrent neural network for spectral mapping in speech bandwidth extension,」 in Proc. of IEEE Global Conf. on Signal and Information Processing (GlobalSIP), 2016, pp. 242–246.
[10] B. Liu, J. Tao, Z.Wen, Y. Li, and D. Bukhari, 「A novel method of artificial bandwidth extension using deep architecture,」 in Sixteenth Annual Conf. of the Int. Speech Communication Association,2015.
[11] J. Abel, M. Strake, and T. Fingscheidt, 「Artificial bandwidth extension using deep neural networks for spectral envelope estimation,」 in Proc. of Int. Workshop on Acoustic Signal Enhancement (IWAENC). IEEE, 2016, pp. 1–5.
[12] A. Nour-Eldin and P. Kabal, 「Objective analysis of the effect of memory inclusion on bandwidth extension of narrowband speech,」 in Proc. of INTERSPEECH, 2007, pp. 2489–2492.
[13] A. Nour-Eldin, 「Quantifying and exploiting speech memory for the improvement of narrowband speech bandwidth extension,」 Ph.D. Thesis, McGill University, Canada, 2013.
[14] P. Bachhav, M. Todisco, and N. Evans, 「Exploiting explicit memory inclusion for artificial bandwidth extension,」 in Proc.of IEEE Int. Conf. on Acoustics, Speech and Signal Processing(ICASSP), 2018, pp. 5459–5463.
[15] P. Bachhav, M. Todisco, and N. Evans, 「Artificial bandwidth extension with memory inclusion using semi-supervised stacked auto-encoders,」 in Proc. of INTERSPEECH, 2018, pp.1185–1189.
[16] D. Kingma et al., 「Semi-supervised learning with deep generative models,」 in Advances in Neural Information Processing Systems, 2014, pp. 3581–3589.
[17] K. Sohn, H. Lee, and X. Yan, 「Learning structured output representation using deep conditional generative models,」 in Advances in Neural Information Processing Systems, 2015,pp.3483–3491.
[18] X. Yan, J. Yang, K. Sohn, and H. Lee, 「Attribute2image: Conditional image generation from visual attributes,」 in European Conference on Computer Vision. Springer, 2016, pp. 776–791.
[19] W.-N. Hsu, Y. Zhang, and J. Glass, 「Learning latent representations for speech generation and transformation,」 INTERSPEECH,2017.
[20] M. Blaauw and J. Bonada, 「Modeling and transforming speech using variational autoencoders.,」 in INTERSPEECH, 2016, pp.1770–1774.
[21] C.-C. Hsu et al., 「Voice conversion from non-parallel corpora using variational auto-encoder,」 in Signal and Information Processing Association Annual Summit and Conference (APSIPA),2016 Asia-Pacific. IEEE, 2016, pp. 1–6.
[22] K. Akuzawa, Y. Iwasawa, and Y. Matsuo, 「Expressive speechsynthesis via modeling expressions with variational autoencoder,」 INTERSPEECH, 2018.
[23] Y. Jung, Y. Kim, Y. Choi, and H. Kim, 「Joint learning using denoising variational autoencoders for voice activity detection,」Proc. Interspeech 2018, pp. 1210–1214, 2018.
[24] S. Latif, R. Rana, J. Qadir, and J. Epps, 「Variational autoencoders for learning latent representations of speech emotion,」INTERSPEECH, 2018.
[25] L. Pandey, A. Kumar, and V. Namboodiri, 「Monoaural audio source separation using variational autoencoders,」 Proc. Interspeech 2018, pp. 3489–3493, 2018.
[26] D. Kingma and M. Welling, 「Auto-encoding variational bayes,」 arXiv preprint arXiv:1312.6114, 2013.
[27] C. Doersch, 「Tutorial on variational autoencoders,」 arXiv preprint arXiv:1606.05908, 2016.
[28] J. Garofolo, L. Lamel, W. Fisher, J. Fiscus, and D. Pallett, 「DARPA TIMIT acoustic-phonetic continous speech corpus CD-ROM. NIST speech disc 1-1.1,」 NASA STI/Recon technical report N, vol. 93, 1993.
[29] P. Kabal, 「TSP speech database,」 McGill University, Database Version : 1.0, pp. 02–10, 2002.
[30] F. Chollet et al., 「Keras,」 https://github.com/keras-team/keras, 2015.
[31] D. Kingma and J. Ba, 「Adam: A method for stochastic optimization,」arXiv preprint arXiv:1412.6980, 2014.
[32] K. He et al., 「Delving deep into rectifiers: Surpassing humanlevel performance on imagenet classification,」 in Proc. of the IEEE int. conf. on computer vision, 2015, pp. 1026–1034.
[33] S. Ioffe and C. Szegedy, 「Batch normalization: Accelerating deep network training by reducing internal covariate shift,」 in Int. conf. on machine learning, 2015, pp. 448–456.
[34] R. Gray, A. Buzo, A. Gray, and Y. Matsuyama, 「Distortion measures for speech processing,」 IEEE Trans. on Acoustics,Speech, and Signal Processing, vol. 28, no. 4, pp. 367–376,1980.
[35] 「ITU-T Recommendation P.862.2 : Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs,」 ITU, 2005.

相關文章
相關標籤/搜索