論文翻譯:Speech Super Resolution Generative Adversarial Network

博客做者:凌逆戰html

論文地址:https://ieeexplore.ieee.org/document/8682215git

博客地址:http://www.javashuo.com/article/p-omgwzkva-w.htmlapi


 論文做者:Sefik Emre Eskimez , Kazuhito Koishida網絡

摘要

  語音超分辨率(SSR)或語音帶寬擴展的目標是由給定的低分辨率語音信號生成缺失的高頻份量。它有提升電信質量的潛力。咱們提出了一種新的SSR方法,該方法利用生成對抗網絡(GANs)和正則化(regularization)方法來穩定GAN訓練。生成器網絡是有一維卷積核的卷積自編碼器,沿時間軸運行,輸入低頻對數功率譜產生高頻對數功率譜。咱們使用兩種最新的基於深度神經網絡(DNN)的方法與咱們提出的方法進行比較,包括客觀的語音質量度量和主觀的感知測試。結果代表,該方法在客觀評價和主觀評價方面均優於基線方法。架構

關鍵字:生成對抗性網絡,語音超分辨率,人工語音帶寬擴展app

一、引言

  語音加強是語音處理領域研究的熱點問題之一。語音加強的主要目的是提升輸入語音信號的質量和可懂度。大部分的工做在這一領域關注消除背景噪音或混響,其中一些關注生成丟失的高頻內容增長語音信號的分辨率,也就是文獻中說的人工語音帶寬擴展或語音超分辨率(SSR)。在本文的剩下部分中,咱們將這個問題稱爲SSR。框架

  SSR在許多實際場景中都有應用,並具備改善人們生活質量的潛力。一個典型的例子是公共交換電話網(PSTN),它的帶寬仍然被限制在一個窄帶(300-3400 Hz)。在的研究中[1]代表,與窄帶相比,用戶更喜歡高分辨率的語音信號。Kepler等人指出[2],窄帶語音對聽力受損人羣在經過電話交流時具備困難性。在另外一項研究中,Liu等人的代表[3],認爲的將分辨率從窄帶提升到寬帶(高達8 kHz),能夠提升人工耳蝸使用者的語音識別率。ide

  本文介紹了一種採用對抗性訓練的語音超分辨神經網絡和一種正則化方法來穩定對抗性訓練。咱們的靈感來自於對單個圖像和視頻超分辨率的對抗性訓練的成功。該生成器是一個以對數功率譜圖(LPS)爲輸入,生成相應範圍高頻LPS的序列到序列卷積自編碼器網絡這項工做是第一做者在微軟研究院實習時完成的。卷積層中的濾波器是一維的,它們沿譜圖的時間軸運行。採用一維核函數,下降了訓練和推理的計算複雜度該系統重量輕,在移動設備和消費者級cpu上具備實時處理能力。訓練過程以下:首先,咱們在幾個epoch(週期)內僅僅訓練reconstruction(重構)損失來初始化生成器網絡。而後,在加權重構損失的基礎上,利用對抗性損失對框架進行訓練。在GAN訓練過程當中,爲了穩定辨識過程,咱們在鑑別器損失中加入加權梯度penalty(懲罰)。咱們使用語音技術研究中心(CSTR)的語音cloning(克隆)工具包(VCTK)語料庫[4]來訓練咱們的系統。爲了肯定對未知說話人和語音條件的魯棒性,咱們使用與咱們的訓練集徹底不一樣的數據集(即華爾街日報語料庫(WSJ0)[5])來評估咱們的系統。咱們將咱們的方法與基線進行比較[6,7]。結果代表,該方法在客觀評價和主觀評價方面均優於基線方法。一組例子能夠公開得到函數

  論文的其他部分組織以下:第2節介紹了相關工做。第三部分概述了系統概況,神經網絡框架。在第四部分,咱們描述了實驗的細節,並給出了客觀和主觀的評價結果。第五部分是本文的結論。工具

一、相關工做

  早期的工做主要是估計語音信號的頻譜包絡,並對窄帶到寬帶信號的映射進行建模。這些工做依靠高斯混合模型(GMMs)[8 10]、隱馬爾可夫模型(HMMs)[11 14]、神經網絡(NNs)[6,7,15 17]來學習窄帶和寬帶信號之間的傳遞函數。最近,基於深度學習的方法[6,7]優於這些方法。

  Li等人提出了一種DNN來從窄帶的LPS預測寬帶的對數功率譜(LPS)。爲了人爲地建立缺失的相位信息,他們將低頻頻段的相位翻轉爲高頻頻段的相位,重構時域信號。他們證實了他們的方法優於基於GMM的方法。Kuleshov等人提出直接使用原始波形,並引入端到端網絡。他們使用了一個具備均方偏差(MSE)目標函數的卷積自編碼網絡。與基於信號處理的方法相比,因爲沒有預處理,該方法的實現更加直觀。可是,它的計算開銷很大,可能不適合在邊緣設備上運行。

  生成對抗網絡(GANs)[18]在圖像、視頻和語音生成任務中表現出強大的功能。GANs本質上是一個零和博弈,包含多個神經網絡,一般是一個生成器和一個鑑別器。生成器試圖經過生成虛假但真實的數據來欺騙鑑別器,而鑑別器則試圖區分真實數據和虛假數據。雖然GANs取得了使人印象深入和現實的結果,但它們在訓練[19]時存在不穩定性。研究人員經過引入正則化來穩定GAN框架[19 23]。其中一些正則化方法對梯度的範數進行了懲罰,以穩定訓練[19,21,23]。

  GANs已成功應用於圖像和視頻的超分辨率[24,25]。因爲譜圖相似於圖像或視頻幀,這些研究激勵咱們研究語音超分辨率背景下的對抗性網絡。

  Li等人最近提出了一種基於對抗性訓練的語音帶寬擴展方法。他們的神經網絡(NN)經過線譜頻率(LSF)、delta LSF和低頻段信號的語音能量來預測高頻段的線譜頻率(LSF)和語音能量(HB)。生成器和鑑頻器是四層徹底鏈接的神經網絡。利用預測的語音參數,採用EVRC-WB框架[27]和合成濾波器組 合成高分辨率語音信號。咱們的方法和[26]都使用了GAN框架進行SSR。然而,咱們的方法直接生成語音譜圖,並使用正則化方法來穩定GAN訓練,而[26]使用估計LSF和能量參數的合成框架來合成語音。

三、提出的方法

  下面,咱們將描述咱們的系統在推理過程當中是如何工做的。設x爲窄帶語音的時域波形。首先對x進行短時傅里葉變換(STFT),而後由x計算對數功率譜圖(LPS)$X^{NB}$和相位譜圖$X_P$。將原始窄帶和預測的高頻LPSs鏈接(concatenated)起來,獲得估計的寬帶LPS $X^{SR}$。咱們還預測了窄帶譜圖的最高C頻率bins,其中C爲offset(偏移)參數。在級聯過程當中,將小於C頻率bin的窄帶譜圖與預測的高頻範圍進行級聯。這樣,咱們就避免了鏈接處的不連續[6]。咱們跟隨Li等人的[6],經過翻轉窄帶相位並還原信號來建立一我的工相位。對於2x超分辨率版本,咱們將這個翻轉相位與窄帶相位鏈接起來,獲得整個寬帶信號的人工相位$\hat{X}_P$。對於4x超分辨率版本,咱們重複翻轉相位三次。最後,利用估計寬帶LPS $X^{SR}$和人工相位$\hat{X}_P$的逆STFT,採用overlap-add(疊加疊加法)對時域信號進行重構。系統概述如圖1所示

圖1:測試期間提出的語音超分辨(SSR)系統概述。將短時傅里葉變換(STFT)應用於時域信號x,獲得了對數功率譜(LPS) $X^{NB}$和相位譜$X_P$。將窄帶(NB) LPS $X^{NB}$fed to(饋入)SSR-GAN,獲得估計高頻(HF)範圍LPS,並將其鏈接到NB LPS上,獲得寬帶(WB) LPS $\hat{X}^{SR}$。經過翻轉和重複NB相位$X_P$,加上一個負號,人爲地產生HF範圍的相位。最後,利用估計的WB LPS和人工相位,經過逆STFT (ISTFT)和疊加劇建時域信號$\hat{y}$。

3.1  網絡體系結構

  該生成器是一個(序列到序列)sequence-to-sequence的模型,它接受T個時間步長的窄帶LPS,輸出帶T個時間步長的高頻範圍LPS。咱們使用[7]中描述的常見瓶頸自動編碼器架構。卷積核是一維的,它在LPSs的時間軸上運行。與2D內核相比,計算成本要低得多,容許在cpu和移動設備上實時處理網絡。咱們在卷積層以後使用batch normalization(批標準化(BN))層,而後是斜率爲0.2的LeakyReLU激活函數,輸出層除外,在輸出層中咱們使用線性激活,而不使用BN層。咱們使用[28]中引入的sup-pixel(亞像素)(pixel shufle(像素洗牌))層進行向上採樣,這對於圖像和視頻的超分辨率很是有用。

  該鑑別器包括三個卷積層,而後是兩個全鏈接層(FC)。咱們使用LeakyReLU激活,除輸出層外,全部層的斜率爲0.2,在輸出層中咱們使用線性激活函數。因爲BN層在鑑別器網絡訓練過程當中會致使訓練的不穩定性,尤爲是當鑑別器損失正規化時[19,23],咱們不使用BN層。鑑別器網絡接收鏈接的窄帶和高頻範圍LPSs做爲輸入高頻範圍LPS能夠直接來自於數據分佈,也能夠由生成器網絡產生。這兩種網絡架構的詳細信息如表1所示。

表1:提出的網絡架構的詳細參數。K和N分別爲沿頻率軸的窄帶和高頻範圍LPS尺寸。對於2x和4x超分辨率尺度,K分別爲129和65。對於2x和4x的超分辨率尺度,N分別爲141和199。

圖2:提出的生成器(中)和鑑別器(右)的網絡結構。每一個矩形塊都是一個卷積層,結構顏色編碼並在左側子圖中詳細顯示。符號:BN :批次歸一化層、FC :全鏈接層、LReLU:LeakyReLU激活層、PShuffle:pixel shuffle或sub-pixel層、LPS:對數功率譜。

3.2  訓練目標函數

  首先,咱們初始化生成器,在僅有重構損失時訓練幾個週期生成器一般初始化訓練後生成過於平滑的結果。爲了得到更清晰、更詳細的LPSs,咱們在重構損失的基礎上改用對抗性損失(GAN損失)。咱們使用對數光譜距離(LSD)(或對數光譜失真)函數做爲訓練目標。LSD測量兩個頻譜之間的距離(以分貝爲單位),其數學定義以下

$$公式1:l_{LSD}=\frac{1}{L}\sum_{l=1}^{L}\sqrt{\frac{1}{K}\sum_{k=1}^{K}[X^{HR}(l,k)-X^{SR}(l,k)]^2}$$

  其中K爲頻率bin數,$X^{HR}$和$X^{SR}$分別爲ground tuth和估計LPSs。

  原始的生成式對抗網絡(GAN)是一個生成器和一個鑑別器之間的零和博弈(極小極大)。咱們在SSR的上下文中對這個問題進行了闡述,其定義以下

$$公式2:\begin{matrix}
\min_{\theta }\max_{\psi }E_P[\log D_{\psi}(X^{HR})]+E_Q[\log (1-D_{\psi}(G_{\theta}(X^{NB})))] \\
P:X^{HR}~p(X^{HR})\\
Q:X^{NB}~p(X^{NB})
\end{matrix}$$

其中$X^{HR}$是高分辨率數據(真實數據),$X^{NB}$是窄帶數據。$G_{\theta}(·)$是生成器,$G_{\psi }(·)$是鑑別器,其中$\theta$和$\psi$是可訓練參數。$P$是真實數據的分佈,$Q$是窄帶數據的分佈。發生器$(G_{\theta}(·))$處理窄帶和高帶頻譜的串聯。這個符號能夠簡化以下:

$$公式3:\min_{\theta }\max_{\psi }E_P[\log {\varphi}_R]+E_Q[\log (1-{\varphi}_F)]$$

其中${\varphi}_R$和${\varphi}_F$分別是真假數據的鑑別器輸出。

爲了穩定GAN訓練,咱們對[23]中描述的判別器的加權gradient-norms(梯度規範)進行了懲罰。正則化項描述爲

$$公式4:\Omega =E_P[(1-\varphi_R)^2||\bigtriangledown \phi_R||^2]+E_Q[\varphi_F^2||\bigtriangledown \phi _F||^2]$$

咱們將這一項加到鑑別器的目標函數中,以下:

$$公式5:l_{DIS}=E_P[\log \varphi_R]+E_Q[\log(1-\varphi _F)]-\frac{\gamma }{2}\Omega $$

其中爲正則化項的權值。

生成器損失爲重構損耗和GAN損失的加權和,定義以下

$$公式6:l_{GEN}=E_Q[-\log (D_\varphi(G_{\theta}(X^{NB})))]+\lambda l_{LSD}$$

其中,$l_{LSD}$爲式1中描述的目標函數,爲LSD損失的權重參數。

四、實驗

  咱們使用CSTR語音cloning工具包語料庫(VCTK)來訓練咱們的網絡,它最初是爲訓練文本到語音(TTS)合成系統而設計的。錄音爲16位WAV文件,採樣率爲48khz,語音清晰。共有109名不一樣口音的英語人士,每一個人說400個句子。咱們使用六個隨機的說話人的語音做爲驗證集,並使用其他的語音做爲訓練數據集。爲了建立訓練對,咱們將[29]中描述的帶限sinc插值方法處理高分辨率信號,以得到下采樣版本

  爲了評估咱們的網絡的泛化能力,咱們使用了華爾街日報語料庫(WSJ0)數據集來進行評估,它與VCTK語料庫的說話者和語音條件不一樣。錄音採樣率爲16khz,其中包含天然背景噪聲。在咱們的客觀評估中,咱們使用了5000個樣本(大約12小時)的隨機子集。

  咱們的網絡僅使用LSD損失(式1)進行50個epoch的訓練,學習率爲$10^{-4}$,使用GAN + LSD損失(式6)進行另外100個epoch的訓練,學習率爲$10^{-5}$。咱們經過實驗肯定了週期數。咱們的輸入和輸出頻譜的time-steps(時間步長)被設置爲32。咱們使用Adam 優化器來訓練生成器網絡,使用RMSProp優化器來訓練識別器網絡,其mini-batch(小批處理)大小爲64。將輸入輸出LPSs歸一化爲零均值和單位方差;咱們從訓練數據中計算出這些統計數據,並將其應用於推理。表1所示的K變量對於2x實驗爲129,對於4x實驗爲65。頻率偏移量按下式計算

$$公式7:floor(\frac{K}{10})+1$$

其中K爲輸入頻譜中頻率bin數。表1所示的N變量在2x和4x超分辨率尺度下分別設置爲141和199。咱們將方程5所示的變量$\gamma$設爲2。

  咱們從第2節中描述的現有工做中採用了兩種基線方法。第一個基線是基於STFT的方法[6],在本文的其他部分中咱們將其命名爲$BL1$。因爲這項工做只考慮了2x SSR,因此咱們沒有實現4x SSR版本。第二個基線是基於原始波形的方法[7],在本文的其他部分中咱們將其命名爲$BL2$。咱們採用了做者提供的代碼來重現2x和4x SSR的結果。咱們將提議的方法命名爲SSR-GAN。

4.1 客觀指標

咱們採用式1中定義的LSD,分段信噪比(segmental signal to noise ratio, SegSNR) [30],和語音質量感知評價(PESQ)[31]客觀指標,以評價和比較咱們的方法與基線方法。這些指標普遍應用於語音加強和SSR工做。PESQ測量的是語音質量,由國際電信聯盟電信標準化部門(ITU-T)標準化。分段信噪比(SegSNR)是音頻樣本段上的信噪比均值,定義以下

$$SegSNR=\frac{1}{L}\sum_{l=1}^{L}10\log \frac{\sum_{n=1}^{N}[x(l,n)]^2}{\sum_{n=1}^{N}[x(l,n)-\hat{x}(l,n)]^2}$$

其中L爲段數,N爲語音中的數據點數。對於SegSNR和PESQ,值越高越好;對於LSD,數值越低越好。

4.2 結果

  客觀評價結果如表2所示。咱們的方法在2x和4x SSR任務中都優於基線,在全部三個客觀評價指標方面都有很好的優點。與$BL1$相比,LSD值提升了約1.1 dB。對於SegSNR,改進大約是3.9 dB。PESQ略有改善,約爲0.1。與$BL2$相比,咱們的方法在4x設置下的改進更爲明顯。LSD對高頻範圍和全頻譜的改善分別爲3.3 dB和4.7 dB左右。SegSNR提升了4.7 dB左右。與2x量表相比,PESQ明顯提升,約爲0.5。

表2:2x和4x SSR實驗的客觀評價結果。咱們的方法(SSR-GAN)在全部指標上都優於基線。LSD HF爲僅在高頻範圍計算的LSD值,其中LSD Full爲整個頻譜計算的LSD值。

  圖3爲示例譜圖,其中第一行爲ground truth高頻範圍語譜圖,第二行爲僅通過LSD損失訓練的神經網絡獲得的高頻範圍語譜圖,第三行分別爲2x和4x的SSRGAN結果。注意,第二行上的LPSs過於平滑。通過GAN訓練(第三排),效果更加清晰,細節更加精細,精力更加充沛。

圖3:給出了2x和4x的光譜圖示例。這些樣本是從WSJ0語料庫中隨機抽取的。第一行是ground truth高頻範圍語譜圖。第二行和第三行顯示了只訓練LSD損耗(第二行)和同時訓練LSD和GAN損耗(第三行)的提出的網絡生成的高頻範圍語譜圖。

4.3 主觀的評價

  咱們進行了主觀評估,以測試咱們的方法與基線和ground truth數據在人類感知方面的比較。咱們生成了兩個測試集,每一個測試集包含40個句子,每一個句子的縮放分別爲2x和4x。包括窄帶信號、ground truth高分辨率信號、預測超分辨率信號和基線。咱們想把每一個項目的測試時間限制在30分鐘以內;所以,咱們對每一個分辨率縮放只使用基線方法之一的樣本,對2x和4x分別使用[6]和[7]。共有20名志願者,他們每人評估了80個樣本。每一個志願者都經過聽5對低分辨率和ground truth高分辨率的語音。將測試樣本隨機呈現給志願者,每一個樣本的得分在0到100之間,其中0表明低分辨率信號,100表明高分辨率信號。

  2x和4x縮放實驗結果如圖4所示。ground truth高分辨語音的得分爲80.79%,其次是咱們的方法,得分爲70.72%。低分辨率信號和$BL1$的得分較低,分別爲21.75%和34.52%。因爲SSR-GAN評分接近高分辨率信號,咱們能夠得出結論,在2x尺度下,SSR-GAN能夠在語音質量上說服聽衆,而且能夠優於基線方法。4x實驗更具挑戰性,與2x實驗相比,缺失的相位信息更加明顯。高分辨率分數與SSRGAN之間的差距約爲32%。SSR-GAN仍然能夠超過基線方法,而且有超過50%的得分。

圖4:2x和4x量表的主觀測試結果。

5 結論

  在這項工做中,咱們提出了一種新的方法,利用對抗性訓練語音超分辨率任務。經過客觀和主觀評價,咱們的方法優於基於DNN的基線方法。主觀評價代表,對於2倍分辨率的尺度,咱們的方法能夠獲得接近地面真實的高分辨率信號,對於4倍分辨率的尺度,咱們的方法能夠得到較好的性能。該方法計算量小,可以在邊緣設備上實時運行。咱們將來的工做包括利用頻譜估計相位信息。

6 參考文獻

[1] ITU, 「Paired comparison test of wideband and narrowband telephony,」 in Tech. Rep. COM 12-9-E. Mar. 1993.
[2] Laura Jennings Kepler, Mark Terry, and Richard H Sweetman, 「Telephone usage in the hearing-impaired population.,」 Ear and hearing,
vol. 13, no. 5, pp. 311–319, 1992.
[3] Chuping Liu, Qian-Jie Fu, and Shrikanth S Narayanan, 「Effect of bandwidth extension to telephone speech recognition in cochlear implant users,」 The Journal of the Acoustical Society of America, vol. 125, no.2, pp. EL77–EL83, 2009.
[4] Christophe Veaux, Junichi Yamagishi, Kirsten MacDonald, et al.,「Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit,」 University of Edinburgh. The Centre for Speech Technology Research (CSTR), 2016.
[5] John Garofalo, David Graff, Doug Paul, and David Pallett, 「Csr-i(wsj0) complete,」 Linguistic Data Consortium, Philadelphia, 2007.
[6] Kehuang Li and Chin-Hui Lee, 「A deep neural network approach to speech bandwidth expansion,」 in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE,2015, pp. 4395–4399.
[7] Volodymyr Kuleshov, S Zayd Enam, and Stefano Ermon, 「Audio super resolution using neural networks,」 arXiv preprint arXiv:1708.00853,2017.
[8] Kun-Youl Park, 「Narrowband to wideband conversion of speech using gmm based transformation,」 in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). IEEE, 2000, pp.1843–1846.
[9] Samir Chennoukh, A Gerrits, G Miet, and R Sluijter, 「Speech enhancement via frequency bandwidth extension using line spectral frequencies,」 in Acoustics, Speech, and Signal Processing, 2001. Proceedings.(ICASSP’01). 2001 IEEE International Conference on. IEEE,2001, vol. 1, pp. 665–668.
[10] Hyunson Seo, Hong-Goo Kang, and Frank Soong, 「A maximum a posterior-based reconstruction approach to speech bandwidth expansion in noise,」 in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014, pp. 6087–6091.
[11] Peter Jax and Peter Vary, 「Artificial bandwidth extension of speech signals using mmse estimation based on a hidden markov model,」 in IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP). IEEE, 2003, vol. 1, pp. I–I.
[12] Guo Chen and Vijay Parsa, 「Hmm-based frequency bandwidth extension for speech enhancement using line spectral frequencies,」 in Acoustics,Speech, and Signal Processing, 2004. Proceedings.(ICASSP’04).IEEE International Conference on. IEEE, 2004, vol. 1, pp. I–709.
[13] Patrick Bauer and Tim Fingscheidt, 「An hmm-based artificial bandwidth extension evaluated by cross-language training and test,」 in Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on. IEEE, 2008, pp. 4589–4592.
[14] Geun-Bae Song and Pavel Martynovich, 「A study of hmm-based bandwidth extension of speech signals,」 Signal Processing, vol. 89, no. 10,pp. 2036–2044, 2009.
[15] Bernd Iser and Gerhard Schmidt, 「Neural networks versus codebooks in an application for bandwidth extension of speech signals,」 in Eighth European Conference on Speech Communication and Technology,2003.
[16] Juho Kontio, Laura Laaksonen, and Paavo Alku, 「Neural networkbased artificial bandwidth expansion of speech,」 IEEE transactions on audio, speech, and language processing, vol. 15, no. 3, pp. 873–881,2007.
[17] Johannes Abel and Tim Fingscheidt, 「Artificial speech bandwidth extension using deep neural networks for wideband spectral envelope estimation,」 IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 1, pp. 71–83, 2018.
[18] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio,「Generative adversarial nets,」 in Advances in neural information processing systems, 2014, pp. 2672–2680.
[19] Lars Mescheder, Andreas Geiger, and Sebastian Nowozin, 「Which training methods for gans do actually converge?,」 in International Conference on Machine Learning, 2018, pp. 3478–3487.
[20] Martin Arjovsky, Soumith Chintala, and L´eon Bottou, 「Wasserstein generative adversarial networks,」 in International Conference on Machine Learning, 2017, pp. 214–223.
[21] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin,and Aaron C Courville, 「Improved training of wasserstein gans,」 in Advances in Neural Information Processing Systems, 2017, pp. 5767–5777.
[22] Casper Kaae Sønderby, Jose Caballero, Lucas Theis, Wenzhe Shi, and Ferenc Husz´ar, 「Amortised map inference for image super-resolution,」arXiv preprint arXiv:1610.04490, 2016.
[23] Kevin Roth, Aurelien Lucchi, Sebastian Nowozin, and Thomas Hofmann, 「Stabilizing training of generative adversarial networks through regularization,」 in Advances in Neural Information Processing Systems,2017, pp. 2018–2028.
[24] Christian Ledig, Lucas Theis, Ferenc Husz´ar, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew P Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, et al., 「Photo-realistic single image superresolution using a generative adversarial network.,」 in CVPR, 2017,vol. 2, p. 4.
[25] Alice Lucas, Santiago Lopez Tapia, Rafael Molina, and Aggelos K Katsaggelos,「Generative adversarial networks and perceptual losses for video super-resolution,」 arXiv preprint arXiv:1806.05764, 2018.
[26] Sen Li, St´ephane Villette, Pravin Ramadas, and Daniel J Sinder,「Speech bandwidth extension using generative adversarial networks,」in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 5029–5033.
[27] 3GPP2 C.S0014-C v1.0, 「Enhanced variable rate codec, speech service option 3, 68 and 70 for wideband spread spectrum digital systems,」 .
[28] Wenzhe Shi, Jose Caballero, Ferenc Husz´ar, Johannes Totz, Andrew PAitken, Rob Bishop, Daniel Rueckert, and Zehan Wang, 「Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network,」 in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 1874–1883.
[29] Julius O. Smith, 「Digital audio resampling home page center for computer research in music and acoustics (ccrma),」 .
[30] Paul Mermelstein, 「Evaluation of a segmental snr measure as an indicator of the quality of adpcm coded speech,」 The Journal of the Acoustical Society of America, vol. 66, no. 6, pp. 1664–1667, 1979.
[31] AWRix, J Beerends, M Hollier, and A Hekstra, 「Perceptual evaluation of speech quality (pesq), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs,」 ITU-T Recommendation, vol. 862, 2001.

相關文章
相關標籤/搜索