基於SincNet的原始波形說話人識別

speaker recognition from raw waveform with SincNet

Mirco Ravanelli, Yoshua Bengiopython

  做爲一種可行的替代i-vector的說話人識別方法,深度學習正日益受到歡迎。利用卷積神經網絡(CNNs)直接對原始語音樣本進行處理,取得了良好的效果。而不是使用標準的手工製做的功能,後一種CNNs從波形中學習低電平的語音表示,潛在地容許網絡更好地捕獲重要的窄帶揚聲器特性,如音高和共振峯。合理設計神經網絡是實現這一目標的關鍵。c++

  本文提出了一種新的CNN架構,稱爲SincNet,它鼓勵第一個卷積層發現更有意義的過濾器。SincNet是基於參數化的sinc函數,實現帶通濾波器。與標準CNNs不一樣的是,該方法學習每一個濾波器的全部元素,只直接從數據中學習低截止頻率和高截止頻率。這提供了一種很是緊湊和有效的方法來派生專門針對所需應用程序進行調優的自定義篩選器組。git

  咱們在說話人識別和驗證任務上進行的實驗代表,該結構比標準的CNN在原始波形上收斂更快,性能更好。github

介紹

  說話人識別是一個很是活躍的研究領域,在生物認證、取證、安全、語音識別、說話人二值化等各個領域都有顯著的應用,這使得人們對這門學科[1]產生了濃厚的興趣。目前最早進的解決方案都是基於語音段[2]的i-vector表示,這對以前的高斯混合模型-通用背景模型(GMMUBMs)[3]有顯著的改進。深度學習已經在許多語音任務中顯示出顯著的成功[4 8],包括最近在說話人識別方面的研究[9,10]。深度神經網絡(DNNs)已在i-vector框架內用於計算Baum-Welch統計[11],或用於幀級特徵提取[12]。DNNs也被提議用於直接區別主格說話人的分類,最近關於這一主題的文獻[13 16]就證實了這一點。然而,過去的大多數嘗試使用手工製做的特性,如FBANK和MFCC係數[13,17,18]。這些通過設計的特性最初是根據感知的證據設計的,而且不能保證這些表示對於全部與語音相關的任務都是最優的。例如,標準特徵使語音頻譜平滑,這可能會妨礙提取關鍵的窄帶揚聲器特徵,如音高和共振峯。爲了緩解這一缺陷,最近的一些工做提出直接用光譜圖箱[19 21]或甚至用原始波形[22 34]來饋電網絡。CNNs是處理原始語音樣本的最流行的架構,由於權重共享、local filters和pooling有助於發現健壯和不變的表示。算法

  咱們認爲當前基於波形的CNNs最關鍵的部分之一是第一卷積層。這一層不只處理高維輸入,並且更容易受到消失的梯度問題的影響,特別是在使用很是深的架構時。美國有線電視新聞網(CNN)學習的濾波器一般採用嘈雜且不協調的多頻帶形狀,特別是在可用的訓練樣本不多的狀況下。這些濾波器對神經網絡固然有必定的意義,但對人類的直覺沒有吸引力,彷佛也不能有效地表示語音信號。windows

  爲了幫助CNNs在輸入層中發現更有意義的濾波器,本文提出在濾波器形狀上增長一些約束。與標準CNNs相比,SincNet將波形與實現帶通濾波器的一組參數化sinc函數進行卷積,而標準CNNs的濾波器組特徵依賴於幾個參數(濾波器向量的每一個元素都是直接學習的)。低截止頻率和高截止頻率是濾波器從數據中獲得的惟一參數。這個解決方案仍然提供了至關大的靈活性,可是迫使網絡將重點放在對最終濾波器的形狀和帶寬有普遍影響的高級可調參數上。安全

  咱們的實驗是在具備挑戰性和現實性的條件下進行的。和簡短的測試句(持續2- 6秒)。在各類數據集上取得的結果代表,本文提出的SincNet算法比更標準的CNN算法收斂速度更快,具備更好的末端任務性能。在考慮的實驗設置下,咱們的體系結構也優於一個更傳統的基於i-vector的說話人識別系統。網絡

  論文的其他部分組織以下。SincNet體系結構在第2節中進行了描述。第3節討論了與先前工做的關係。實驗設置和結果分別在第4節和第5節中概述。最後,第6節討論了咱們的結論。架構

2 SincNet結構

標準CNN的第一層在輸入波形和一些有限脈衝響應(FIR)濾波器[35]之間執行一組時域卷積。每一個卷積定義以下(大多數深度學習工具包實際上計算的是相關性而不是卷積。獲得的翻轉(鏡像)過濾器不會影響結果)app

其中x[n]是語音信號的塊,h[n]是長度l的濾波器,y[n]是濾波輸出。在標準cnns中,每一個濾波器的全部l元素(taps)都是從數據中學習的。相反,所提出的sincnet(如圖1所示)使用預約義的函數g執行卷積,該函數g僅依賴於幾個可學習的參數g,以下式中所示:

  受數字信號處理中標準濾波的啓發,一個合理的選擇是定義一個由矩形帶通濾波器組成的濾波器組g。在頻域中,通常帶通濾波器的幅值能夠寫成兩個低通濾波器的差值

其中f1和f2是學習的低和高截止頻率,rect(·)是幅度頻率域中的矩形函數(rect(·)函數的相位被認爲是線性的)。在返回到時域(使用逆傅里葉變換[35])以後,參考函數g變爲:

其中sinc函數定義爲sinc(x) = sinx =x。

 

圖1 SincNet的結構框圖

關於說話人的身份被定位。爲了確保$f1\geq 0$和$f2\geq f1$,前面的方程實際上由如下參數提供

  請注意,咱們並無強制f2小於奈奎斯特頻率,由於咱們觀察到這個約束在訓練期間天然地獲得了知足。此外,每一個濾波器的增益不是在這個層次上學習的。此參數由後續層管理,它們能夠輕鬆地爲每一個過濾器輸出賦予或多或少的重要性。

  一個理想的帶通濾波器。,當通帶徹底平坦且阻帶衰減無限大時,須要無限個元素l。g的任何截斷都不可避免地致使理想濾波器的近似,其特徵是通帶波紋,阻帶衰減有限。緩解這個問題的一個流行的解決方案是[35]窗口。窗口化是經過將截斷的函數g與窗口函數w相乘來實現的,其目的是消除g末端的突變不連續

本文采用流行的漢明窗口[36],定義以下:

  漢明窗特別適合實現高頻率選擇性[36]。可是,這裏沒有報告的結果顯示,在採用其餘功能(如Hann、Blackman和Kaiser windows)時,沒有顯著的性能差別。還請注意,濾波器g是對稱的,所以不會引入任何相位畸變。因爲對稱性,能夠經過考慮濾波器的一邊並繼承另外一半的結果來有效地計算濾波器。

  SincNet中涉及的全部操做都是徹底可微的,濾波器的截止頻率能夠經過隨機梯度降低(SGD)或其餘基於梯度的優化例程與其餘CNN參數聯合優化。如圖1所示,第一次基於sincs的卷積後,可使用標準的CNN管道(池化、歸一化、激活、退出)。多個標準的convolutional、fully-connected或layers[3740]能夠疊加在一塊兒,最後使用softmax分類器對speaker進行分類。

2.1 模型屬性

提出的SincNet具備一些顯著的性質

快速收斂:SincNet迫使網絡只關注對性能有重大影響的濾波器參數。所提出的方法實際上實現了一種天然的概括誤差,它利用了有關濾波器形狀的知識(相似於這項任務中一般使用的特徵提取方法),同時保留了適應數據的靈活性。這種先驗知識使得學習濾波器特性變得更加容易,幫助SincNet更快地收斂到一個更好的解決方案。

參數少:sincnet極大地減小了第一卷積層的參數個數,例如,若是咱們考慮一個由長度爲l的f濾波器組成的層,標準cnn使用f·l參數,而sincnet考慮的是2f。若是f=80和l=100,咱們對cnn使用8k參數,而對sincnet使用160參數。此外,若是咱們將濾波器長度l加倍,標準cnn將其參數計數加倍(例如,咱們從8k變爲16k),而sincnet的參數計數不變(每一個濾波器只使用兩個參數,而無論其長度l如何)。這就提供了一種可能性,能夠在不實際添加

參數少:SincNet大大減小了第一個卷積層的參數數量。例如,若是咱們考慮一個長度爲L的F過濾器組成的層,一個標準的CNN使用F·L參數,而SincNet考慮的是2F。若是F = 80, L = 100,咱們對CNN使用8k參數,而對SincNet僅使用160。此外,若是咱們濾波器長度的兩倍,一個標準的CNN雙打其參數計算(例如,從8 k到16 k),儘管SincNet不變參數計數(只有兩個參數是用於每一個過濾器,無論它的長度L)。這提供了可能性得到很是挑剔和許多水龍頭過濾器,不添加參數優化問題。此外,SincNet體系結構的緊湊性使其適合於少數樣本的狀況。

可解釋性:與其餘方法相比,在第一個卷積層中得到的SincNet feature map具備更好的解釋性和可讀性。事實上,濾波器組只依賴於具備明確物理意義的參數。

3 相關工做

  最近有幾項研究探索了使用CNNs來處理音頻和語音的低水平語音表示。以前的大多數嘗試都利用了星等譜圖特徵[1921,41 43]。雖然光譜圖比標準手工製做的特徵保留了更多的信息,但它們的設計仍然須要仔細調整一些關鍵的超參數,好比幀窗口的持續時間、重疊和類型學,以及頻率箱的數量。所以,最近的趨勢是直接學習原始波形,從而徹底避免任何特徵提取步驟。該方法在語音[22,26]中顯示了良好的前景,包括情緒任務[27]、說話人識別[32]、欺騙檢測[31]和語音合成[28,29]。與SincNet相似,以前的一些工做也提出了對CNN過濾器添加約束,例如強制它們在特定波段上工做[41,42]。與提出的方法不一樣的是,後者的工做是根據譜圖特徵進行操做,同時仍然學習CNN濾波器的全部L元素。在[43]中,使用了一組參數化高斯濾波器,探索了與所提方法相關的思想。該方法對譜圖域進行處理,而SincNet直接考慮原始時域波形。

  據咱們所知,這項研究是第一次顯示了使用卷積神經網絡對原始波形進行時域音頻處理的sinc濾波器的有效性。過去的研究主要針對語音識別,而咱們的研究主要針對語音識別的應用。SincNet學習的緊湊過濾器特別適合於說話人識別任務,特別是在每一個說話人的訓練數據只有幾秒鐘和用於測試的短句的現實場景中。

4 實驗設置

  建議的SincNet已經在不一樣的語料庫上進行了評估,並與許多說話人識別基線進行了比較。本着可重複研究的精神,咱們利用Librispeech等公共數據進行了大部分實驗,並在GitHub上發佈了SincNet的代碼。在下面的部分中,將提供實驗設置的概述。

 圖2:使用標準CNN和建議的SincNet(使用Librispeech語料庫)學習過濾器的示例。第一行顯示了濾波器的時域,第二行顯示它們的幅頻響應。

4.1 語料庫

  爲了對不一樣數量的說話者數據集提供實驗證據,本文考慮了TIMIT (462 spks, train chunk)[44]和Librispeech (2484 spks)[45]語料庫。去掉每一個句子開頭和結尾的非語音間隔。內部沉默超過125毫秒的Librispeech語句被分紅多個塊。爲了解決文本無關的說話人識別,TIMIT的校準語句(即,全部說話者的文本相同)已被刪除。對於後一個數據集,每一個說話者使用5個句子進行訓練,其他3個句子用於測試。在Librispeech語料庫中,培訓和測試材料被隨機選擇,每一個演講者使用12-15秒的訓練數據,測試2-6秒的句子。

4.2 SincNet 設置

  每一個語音句子的波形被分割成200 ms的塊(有10 ms的重疊),並輸入到Sinc- Net體系結構中。第一層使用長度爲L=251個樣本的80個過濾器,執行第2節中描述的基於sincs的卷積。該架構隨後使用了兩個標準的卷積層,都使用60個長度爲5的過濾器。層歸一化[46]用於輸入樣本和全部卷積層(包括SincNet輸入層)。接下來,咱們使用三個由2048個神經元組成的全鏈接層,並使用批量歸一化[47]進行歸一化。全部的隱層使用漏- relu[48]非線性。使用mel-scale截止頻率初始化sincs層的參數,而使用衆所周知的Glorot初始化方案[49]初始化網絡的其他部分。經過使用softmax分類器得到幀級揚聲器分類,提供了一組目標揚聲器的後驗機率。一個句子級別的分類是簡單地經過平均幀預測和投票給說話者而獲得的,這樣能夠最大化平均後驗。

  訓練使用RMSprop優化器,學習率lr=0:001,a=0:95,e=10-7,小批量128。架構的全部超參數都是在timit上調整的,而後也被librispeech繼承。

  揚聲器驗證系統是由揚聲器識別神經網絡考慮兩種可能的設置。首先,咱們考慮d-vector framework[13, 21],它依賴於最後一個隱含層的輸出,計算測試和聲明的speaker dvectors之間的餘弦距離。做爲另外一種解決方案(下稱DNN-class),說話人驗證系統能夠直接取與聲明身份對應的softmax後驗分數。這兩種方法將在第5節中進行比較。

  從冒名頂替者中隨機選出10個話語,每一個句子都來自一個真正的演講者。請注意,爲了評估咱們在標準的開放集揚聲器id任務中的方法,全部的冒名頂替者都來自一個與用於培訓揚聲器id DNN不一樣的揚聲器池。

4.3 基線設置

  咱們比較了SincNet與幾個備選系統。首先,咱們考慮由原始波形提供的標準CNN。這個網絡基於與SincNet相同的架構,可是用一個標準的來代替基於SincNet的卷積。

  還與流行的手工製做功能進行了比較。To end, 咱們 計算 39 MFCCs (13 static++) 40 FBANKs 使用 Kaldi 工具包 [50].這些特徵每25毫秒計算一次,有10毫秒的重疊,收集起來造成一個約200毫秒的上下文窗口(即,與考慮的基於波形的神經網絡的上下文類似)。FBANK使用CNN, MFCCs4使用多層感知器(MLP)。FBANK網絡採用層歸一化,MFCC網絡採用批量歸一化。這些網絡的超參數也使用上述方法進行了調整。

  對於說話人驗證明驗,咱們也考慮了i-vector基線。i-vector系統是用SIDEKIT工具包[51]實現的。在Librispeech數據(避免測試和登記語句)上訓練GMM-UBM模型、總變率(TV)矩陣和機率線性判別分析(PLDA)。GMM-UBM由2048個高斯份量組成,TV和PLDA特徵語音矩陣的秩爲400。註冊和測試階段在Librispeech上進行,使用與DNN實驗相同的語音片斷集。

5 結果

  本節報告所提出的SincNet的實驗驗證。首先,咱們將使用SincNet學習的過濾器與使用標準CNN學習的過濾器進行比較。而後,咱們將咱們的體系結構與其餘競爭系統在說話人識別和驗證任務方面進行比較

5.1  濾波器的分析

  檢查學習過的過濾器是一種有價值的實踐,能夠洞察網絡實際上正在學習什麼。圖2展現了使用Librispeech數據集(頻率響應繪製在0到4khz之間)經過標準CNN(圖2a)和建議的SincNet(圖2b)學習濾波器的一些示例。從圖中能夠看出,標準的CNN並不老是學習具備明確頻率響應的濾波器。在某些狀況下,頻響看起來有噪聲(見圖2a的第一個濾波器),而在另外一些狀況下,假設有多頻帶形狀(見CNN圖的第三個濾波器)。相反,SincNet是專門設計來實現矩形帶通濾波器,致使更有意義的CNN濾波器。

  除了定性的檢查外,重要的是要強調哪些頻帶被所學習的濾波器覆蓋。圖3爲SincNet和CNN學習的濾波器的累積頻響。有趣的是,在SincNet圖中有三個明顯突出的主要峯值(參見圖中的紅線)。第一個對應於音高區域(男性的平均音高爲133赫茲,女性爲234赫茲)。第二個峯值(大約位於500hz)主要捕捉第一個共振峯,其在各類英語元音上的平均值確實是500hz。最後,第三個峯(從900到1400赫茲)捕捉到一些重要的第二共振峯,如元音/a/的第二共振峯,平均位於1100赫茲。此篩選器組配置代表,SincNet已經成功地調整了其特性來處理說話人標識。相反,標準的CNN沒有表現出這樣一種有意義的模式:CNN過濾器傾向於正確地聚焦在頻譜的較低部分,可是調諧到第一和第二共振峯的峯值並無清晰地出現。從圖3能夠看出,CNN曲線位於SincNet曲線之上。實際上,SincNet學習的過濾器,平均來講,比CNN的更有效,可能更好地捕捉窄帶揚聲器的線索。

5.2 說話人辨別

與標準CNN相比,SincNet的學習曲線如圖4所示。在TIMIT數據集上獲得的這些結果突出了使用SincNet時幀錯誤率(FER%)的更快下降。此外,SincNet收斂到更好的性能,致使一個33.0%的FER與一個37.7%的FER實現與CNN的基線。

 

表1:在TIMIT (462 spks)和Librispeech (2484 spks)數據集上訓練的說話人識別系統的分類錯誤率(CER%)。咱們的產品比競爭對手的性能好。

  表1報告了實現的分類錯誤率(CER%)。該表顯示,SincNet在TIMIT和Librispeech數據集上都優於其餘系統。在TIMIT上,原始波形與標準CNN的差距特別大,這證明了SincNet在訓練數據較少的狀況下的有效性。雖然LibriSpeech的使用減小了這一差距,咱們仍然觀察到4%的相對改善,也得到了更快的收斂(1200對1800年代)。標準FBANKs只在TIMIT上提供了與SincNet至關的結果,但在使用Librispech時比咱們的架構差得多。在訓練數據不多的狀況下,網絡不能比fbank更好地發現過濾器,可是在數據較多的狀況下,能夠學習和利用定製的過濾器庫來提升性能。

5.3。說話人驗證

  做爲最後一個實驗,咱們將驗證擴展到說話人驗證。表2報告了使用Librispeech語料庫得到的相同錯誤率(EER%)。全部DNN模型都顯示出良好的性能,致使全部病例的EER均低於1%。該表還強調了SincNet的表現優於其餘模型,顯示了相對於標準CNN模型約11%的性能改進。dnn類模型的性能明顯優於d-vector。儘管後一種方法頗有效,可是必須爲每個添加到[32]池中的新揚聲器訓練(或調整)一個新的DNN模型。這使得該方法的性能更好,但與d-vector相比靈活性更差。

  爲了完整起見,還對標準i-vector進行了實驗。雖然與此技術的詳細比較超出了本文的範圍,但值得注意的是,咱們最好的i-vector系統實現了EER=1.1%,遠遠低於DNN系統。衆所周知,在文獻中,當每一個說話者使用更多的訓練材料和使用更長的測試語句時,i-vector可以提供競爭性的表現[52 54]。在這項工做所面臨的挑戰條件下,神經網絡能夠實現更好的泛化。

6 結論和將來的工做

  提出了一種直接處理波形音頻的神經網絡結構SincNet。咱們的模型受到數字信號處理中濾波方式的啓發,經過有效的參數化對濾波形狀施加約束。SincNet已經普遍地評估了挑戰性的說話人識別和驗證任務,顯示性能效益爲全部考慮的語料庫。

  除了性能的提升,SincNet也大大提升了收斂速度超過一個標準的CNN,並因爲利用濾波器的對稱性計算效率更高。對SincNet濾波器的分析代表,所學習的濾波器組被調優,以精確地提取一些已知的重要揚聲器特性,如音高和共振峯。在將來的工做中,咱們將評估SincNet在其餘流行的揚聲器識別任務,如VoxCeleb。雖然本研究僅針對說話人識別,但咱們認爲所提出的方法定義了處理時間序列的通常範式,能夠應用於許多其餘領域。所以,咱們將來的努力將致力於擴展到其餘任務,如語音識別、情感識別、語音分離和音樂處理。

感謝

  咱們要感謝高塔姆·巴塔查里亞、凱爾·卡斯特納、蒂圖安·帕科利特、德米特里·謝爾約克、莫里齊奧·奧莫洛戈和雷納託·德·莫里。這項研究在必定程度上獲得了Calcul Qu ebec和Compute Canada的支持。

參考文獻

[1] H. Beigi, Fundamentals of Speaker Recognition, Springer, 2011.

[2] N. Dehak, P. J. Kenny, R. Dehak, P. Dumouchel, and P. Ouellet, Front-end factor analysis for speaker verification, IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 4, pp. 788 798, 2011.

[3] D. A. Reynolds, T. F. Quatieri, and R. B. Dunn, Speaker verification using adapted Gaussian mixture models, Digital Signal Processing, vol. 10, no. 1 3, pp. 19 41, 2000. [4] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning, MIT Press, 2016.

[5] D. Yu and L. Deng, Automatic Speech Recognition - A Deep Learning Approach, Springer, 2015.

[6] G. Dahl, D. Yu, L. Deng, and A. Acero, Contextdependent pre-trained deep neural networks for large vocabulary speech recognition, IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 1, pp. 30 42, 2012.

[7] M. Ravanelli, Deep learning for Distant Speech Recognition, PhD Thesis, Unitn, 2017.

[8] M. Ravanelli, P. Brakel, M. Omologo, and Y. Bengio, A network of deep neural networks for distant speech recognition, in Proc. of ICASSP, 2017, pp. 4880 4884.

[9] M. McLaren, Y. Lei, and L. Ferrer, Advances in deep neural network approaches to speaker recognition, in Proc. of ICASSP, 2015, pp. 4814 4818.

[10] F. Richardson, D. Reynolds, and N. Dehak, Deep neural network approaches to speaker and language recognition, IEEE Signal Processing Letters, vol. 22, no. 10, pp. 1671 1675, 2015.

[11] P. Kenny, V. Gupta, T. Stafylakis, P. Ouellet, and J. Alam, Deep neural networks for extracting baumwelch statistics for speaker recognition, in Proc. of Speaker Odyssey, 2014.

[12] S. Yaman, J. W. Pelecanos, and R. Sarikaya, Bottleneck features for speaker recognition, in Proc. of Speaker Odyssey, 2012, pp. 105 108.

[13] E. Variani, X. Lei, E. McDermott, I. L. Moreno, and J. Gonzalez-Dominguez, Deep neural networks for small footprint text-dependent speaker verification, in Proc. of ICASSP, 2014, pp. 4052 4056.

[14] G. Heigold, I. Moreno, S. Bengio, and N. Shazeer, End-to-end text-dependent speaker verification, in Proc. of ICASSP, 2016, pp. 5115 5119.

[15] D. Snyder, P. Ghahremani, D. Povey, D. Romero, Y. Carmiel, and S. Khudanpur, Deep neural networkbased speaker embeddings for end-to-end speaker verification, in Proc. of SLT, 2016, pp. 165 170.

[16] D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur, X-vectors: Robust dnn embeddings for speaker recognition, in Proc. of ICASSP, 2018.

[17] F. Richardson, D. A. Reynolds, and N. Dehak, A unified deep neural network for speaker and language recognition, in Proc. of Interspeech, 2015, pp. 1146 1150.

[18] D. Snyder, D. Garcia-Romero, D. Povey, and S. Khudanpur, Deep neural network embeddings for textindependent speaker verification, in Proc. of Interspeech, 2017, pp. 999 1003.

[19] C. Zhang, K. Koishida, and J. Hansen, Textindependent speaker verification based on triplet convolutional neural network embeddings,  IEEE/ACM Trans. Audio, Speech and Lang. Proc., vol. 26, no. 9, pp. 1633 1644, 2018.

[20] G. Bhattacharya, J. Alam, and P. Kenny, Deep speaker embeddings for short-duration speaker verification, in Proc. of Interspeech, 2017, pp. 1517 1521.

[21] A. Nagrani, J. S. Chung, and A. Zisserman, Voxceleb: a large-scale speaker identification dataset, in Proc. of Interspech, 2017.

[22] D. Palaz, M. Magimai-Doss, and R. Collobert, Analysis of CNN-based speech recognition system using raw speech as input, in Proc. of Interspeech, 2015.

[23] T. N. Sainath, R. J. Weiss, A. W. Senior, K. W. Wilson, and O. Vinyals, Learning the speech front-end with raw waveform CLDNNs, in Proc. of Interspeech, 2015.

[24] Y. Hoshen, R.Weiss, and K.W.Wilson, Speech acoustic modeling from raw multichannel waveforms, in Proc. of ICASSP, 2015.

[25] T. N. Sainath, R. J. Weiss, K. W. Wilson, A. Narayanan, M. Bacchiani, and A. Senior, Speaker localization and microphone spacing invariant acoustic modeling from raw multichannel waveforms, in Proc. of ASRU, 2015.

[26] Z. T uske, P. Golik, R. Schl uter, and H. Ney, Acoustic modeling with deep neural networks using raw time signal for LVCSR, in Proc. of Interspeech, 2014.

[27] G. Trigeorgis, F. Ringeval, R. Brueckner, E. Marchi, M. A. Nicolaou, B. Schuller, and S. Zafeiriou, Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network, in Proc. of ICASSP, 2016, pp. 5200 5204.

[28] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, Wavenet: A generative model for raw audio, in Arxiv, 2016.

[29] S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, S. Jain, J. Sotelo, A. C. Courville, and Y. Bengio, Samplernn: An unconditional end-to-end neural audio generation model, CoRR, vol. abs/1612.07837, 2016.

[30] P. Ghahremani, V. Manohar, D. Povey, and S. Khudanpur, Acoustic modelling from the signal domain using CNNs, in Proc. of Interspeech, 2016.

[31] H. Dinkel, N. Chen, Y. Qian, and K. Yu, End-toend spoofing detection with raw waveform CLDNNS, Proc. of ICASSP, pp. 4860 4864, 2017.

[32] H. Muckenhirn, M. Magimai-Doss, and S. Marcel, Towards directly modeling raw speech signal for speaker verification using CNNs, in Proc. of ICASSP, 2018.

[33] J.-W. Jung, H.-S. Heo, I.-H. Yang, H.-J. Shim, , and H.- J. Yu, A complete end-to-end speaker verification system using deep neural networks: From raw signals to verification result, in Proc. of ICASSP, 2018.

[34] J.-W. Jung, H.-S. Heo, I.-H. Yang, H.-J. Shim, and H.-J. Yu, Avoiding Speaker Overfitting in End-to- End DNNs using Raw Waveform for Text-Independent Speaker Verification, in Proc. of Interspeech, 2018.

[35] L. R. Rabiner and R. W. Schafer, Theory and Applications of Digital Speech Processing, Prentice Hall, NJ, 2011.

[36] S. K. Mitra, Digital Signal Processing, McGraw-Hill, 2005.

[37] J. Chung, C . G ulc ehre, K. Cho, and Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling, in Proc. of NIPS, 2014.

[38] M. Ravanelli, P. Brakel, M. Omologo, and Y. Bengio, Improving speech recognition by revising gated recurrent units, in Proc. of Interspeech, 2017.

[39] M. Ravanelli, P. Brakel, M. Omologo, and Y. Bengio, Light gated recurrent units for speech recognition, IEEE Transactions on Emerging Topics in Computational Intelligence, vol. 2, no. 2, pp. 92 102, April 2018.

[40] M. Ravanelli, D. Serdyuk, and Y. Bengio, Twin regularization for online speech recognition, in Proc. of Interspeech, 2018.

[41] T. N. Sainath, B. Kingsbury, A. R. Mohamed, and B. Ramabhadran, Learning filter banks within a deep neural network framework, in Proc. of ASRU, 2013, pp. 297 302.

[42] H. Yu, Z. H. Tan, Y. Zhang, Z. Ma, and J. Guo, DNN Filter Bank Cepstral Coefficients for Spoofing Detection, IEEE Access, vol. 5, pp. 4779 4787, 2017.

[43] H. Seki, K. Yamamoto, and S. Nakagawa, A deep neural network integrated with filterbank learning for speech recognition, in Proc. of ICASSP, 2017, pp. 5480 5484.

[44] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S. Pallett, and N. L. Dahlgren, DARPA TIMIT Acoustic Phonetic Continuous Speech Corpus CDROM, 1993.

[45] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech: An ASR corpus based on public domain audio books, in Proc. of ICASSP, 2015, pp. 5206 5210.

[46] J. Ba, R. Kiros, and G. E. Hinton, Layer normalization, CoRR, vol. abs/1607.06450, 2016.

[47] S. Ioffe and C. Szegedy, Batch normalization: Accelerating deep network training by reducing internal covariate shift, in Proc. of ICML, 2015, pp. 448 456.

[48] A. L. Maas, A. Y. Hannun, and A. Y. Ng, Rectifier nonlinearities improve neural network acoustic models, in Proc. of ICML, 2013.

[49] X. Glorot and Y. Bengio, Understanding the difficulty of training deep feedforward neural networks, in Proc. of AISTATS, 2010, pp. 249 256.

[50] D. Povey et al., The Kaldi Speech Recognition Toolkit, in Proc. of ASRU, 2011.

[51] A. Larcher, K. A. Lee, and S. Meignier, An extensible speaker identification sidekit in python, in Proc. of ICASSP, 2016, pp. 5095 5099.

[52] A. K. Sarkar, D Matrouf, P.M. Bousquet, and J.F. Bonastre, Study of the effect of i-vector modeling on short and mismatch utterance duration for speaker verification, in Proc. of Interspeech, 2012, pp. 2662 2665.

[53] R. Travadi, M. Van Segbroeck, and S. Narayanan, Modified-prior i-Vector Estimation for Language Identification of Short Duration Utterances, in Proc. of Interspeech, 2014, pp. 3037 3041.

[54] A. Kanagasundaram, R. Vogt, D. Dean, S. Sridharan, and M. Mason, i-vector based speaker recognition on short utterances, in Proc. of Interspeech, 2011, pp. 2341 2344.

項目地址:https://github.com/grausof/keras-sincnet

論文:https://arxiv.org/pdf/1808.00158v3.pdf

paperwithcode地址:https://paperswithcode.com/paper/speaker-recognition-from-raw-waveform-with#

相關文章
相關標籤/搜索