基於深層神經網絡的語音 加強方法研究

近年來,隨着深層神經網絡(在語音識別領域的成功應用,給了語音加強任務的研宄人員不少啓發。的深層非線性結構能夠被設計成一個精細的降噪濾波器。同時基於大數據訓練,能夠充分學
習帶噪語音和乾淨語音之間的複雜的非線性關係。另外的訓練是離線學習的,如同人同樣,它能記住一些噪聲的模式,於是能夠很好地抑制一些非平穩噪聲。算法

首先咱們提出了基於的語音加強方法框架,對數功率譜被用做訓練模型的特徵。則做爲映射函數,能夠從帶噪語音中預測出乾淨語音。而的訓練是分兩步進行的,即預訓練和有監督訓練。預訓練是基於受限玻爾茲曼機(的逐層貪婪式初始化,它能夠防止陷入局部最優。而有監督調優能夠精準地學習帶噪語音和乾淨語音之間的非線性關係。網絡

其次,是一種有監督的學習模型,凡有監督的模型都存在如何應對測試集不匹配問題,也即如何提高系統的泛化能力。上百種類型的噪聲數據被用來構建大規模訓練數據,以此提髙模型對未見的測試噪聲環境的適應性。同時咱們發現,經過此種方法,系統對非平穩噪聲有很是強的抑制能力。框架

再者,對測試中的不匹配帶噪語音須要作自適應,這個不匹配主要有:能量不匹配,噪聲環境不匹配和語言不匹配等方面。所以咱們分別在特徵層面,提出了均值移位方法,來解決測試語音的特徵分佈不一致的問題。而對於噪聲類型不匹配問題,咱們提出了一種動態的噪聲告知訓練方法,即先用動態地估計每一幀的噪聲,而後用來輔助的學習。語言不匹配問題,主要存在於跨語種測試的時候,因爲不一樣語系發音上的差別性致使的丟音問題。咱們提出了經過轉移學習的方法,來自適應地解決這個問題。函數

最後,對數功率譜上的最小均方偏差是訓練的目標函數,可是直接去優化這個目標函數有必定困難的。咱們提出了一種間接的目標函數優化方式。考慮到對數功率譜域上的各個維度間是相互獨立的,所以咱們把梅爾倒頻譜參數(融合到系統中來,讓去聯合優化對數功率譜特徵和特徵。利用的每一個參數都包含了頻率各個維度間的相關性來限制對對數功率譜的估計,以獲得一個在頻率各個維度上偏差更具備一致性的特徵預測。除了這種連續性信息,咱們還能夠用一些具備分類特性的元信息來做爲對對數功率譜預測的輔助項,好比它顯式地表徵了當前時間頻率單元是噪聲主導的仍是語音主導的。另外,通過聚類的噪聲編碼也用來輔助對對數功率譜特徵的學習。性能

語音加強的定義
語音加強是指乾淨語音在現實生活場景中受到來自各類噪聲干擾時,須要經過必定的方法將噪聲濾除,以提高該段語音的質量和可懂度的技術。學習

語音加強的分類
若是按照錄音的通道數來劃分,語音加強又分爲單聲道語音加強和麥克風陣列語音加強。單聲道語音加強只利用了時域和頻域的信息,而麥克風陣列語音加強不只利用了時域和頻域的信息,還利用了空域的信息。測試

而若是按照語音加強的方法來分,能夠分爲無監督語音加強方法和有監督語音加強方法,前者也稱爲傳統語音加強方法,傳統語音加強算法雖然不須要離線訓練,所需的計算資源也少,可是因爲不少不合理的假設的存在,限制了它們的性能上限。而有監督語音加強方法是近些年提出的,利用既有的語音數據或噪聲數據,訓練相關的統計特性模型,其實就是如同人同樣,先讓系統學習並記住一些語音和噪聲的模式,以此指導將噪聲從帶噪語音中分離出來。因爲有監督語音加強方法充分利用了既有的數據,掌握了一些語音和噪聲的統計特性,於是會獲得更優的加強性能。可是在有監督的語音加強方法中,重點須要研究的是如何提高其泛化能力。大數據

帶噪語音的信號模型
噪聲和語音的相互做用關係是很是複雜的。通常認爲有兩種相互做用關係,即加性噪聲和卷積性噪聲。分別以下所示:優化

卷積性噪聲的模型若是在頻域又是乘積性的關係,故卷積性噪聲又稱爲乘性噪聲。但在現實生活場景中,加性噪聲是主要的,特別是低信噪比的聲學環境中,主要是加性噪聲影響了語音的質量和可懂度。所以本論文的研究重點是加性噪聲。若是對加性模型,也即公式的兩邊作短時傅里葉變換(可得加性噪聲模型的頻域表示,以下:編碼

T和D分別表示該信號總共有多少中貞和總頻帶數。若是進一步在對公式的兩邊作平方操做,即獲得:

其中表示噪聲信號和語音信號間的餘弦夾角值,通常的語音加強算法都假設噪聲信號和語音信號之間相互獨立,獲得:

而這一般是不合理的假設,也影響了語音加強系統的性能上限。而本文提出的方法能夠避免這一假設,進而獲得更優的性能。

 

 

譜減法:譜減法的核心思想便是在非語音傾的地方迭代更新噪聲的方差,而後將噪聲的方差從帶噪語音信號的能量中減掉即獲得對乾淨語音信號的估計,以下所示:

所以,譜減法也遵循圖的框架。並且從公式能夠看出,若是噪聲的方差過估計,容易形成語音失真;反之,若是噪聲的方差欠估計,則容易產生「音樂噪聲」。

 

 

維納濾波法:維納濾波法也是語音加強裏的經典方法,它分時域和頻域濾波兩種形式。

而其估計的過程以下:
 

這裏系統稱爲對的一種估計器,而經過讀公式進行求導,最小化乾淨語音和估計語音之間的偏差,從而得到對濾波系統的最優估計,這須要解維納霍夫方程。

若是對公式的兩邊進行頻域轉換,則根據時域卷積,頻域則乘積,可得維納濾波的頻域形式:

再經過進一步求導和最小均方偏差可得維納濾波的增益函數,也稱爲維納增益

可是不得不提到的是,不管是譜減法,仍是維納濾波法,抑或基於最小均方偏差的方法,都沒法對非平穩噪聲有效抑制,這是由於非平穩噪聲具備突發性的特色,僅僅經過利用前面的非語音頓的信息來估計噪聲的方差,很難對非平穩噪聲進行有效跟蹤。

同時須要指出的是,在信噪比比較低的狀況下,傳統單聲道語音加強算法因爲沒法有效判斷語
音巾貞,仍是非語音頓,一般也會發生誤判的狀況,這就致使了語音的嚴重丟失。同時,若是噪聲的能量大於語音的能量,傳統的單聲道語音加強算法幾乎沒法將語音譜給恢復出來,而這對能力較低的輔音的語譜結構一般是毀滅性的。

----------------------------------------------------------------------------------------------------------------------------

基於淺層神經網絡的語音加強:早在年,就有用淺層神經網絡進行語音加強的研宄工做。圖給出了利用淺層神經網絡在時域上學習帶噪語音和乾淨語音之間的相互做用關係(,每次輸入的是個時間上的數據點,所以該網絡的隱層節點數是個,該淺層神經網絡每次的輸出也是對應的個時域上的數據點,是對乾淨語音的預測。而該網絡的初始化是隨機的。可是在時域上,帶噪信號和語音信號的值都比較隨機,且在時域上,帶噪語音和乾淨語音的相互關係可區分度不大,比較難以用淺層祌經網絡這個簡單的模型進行噪聲和語音的分離。

相關文章
相關標籤/搜索