論文地址:ICASSP 2021聲學回聲消除挑戰:數據集和測試框架ios
代碼地址:https://github.com/microsoft/DNS-Challengegit
主頁:https://aec-challenge.azurewebsites.net/github
ICASSP 2021年聲學回聲消除挑戰賽旨在促進聲學回聲消除(AEC)領域的研究,該領域是語音加強的重要組成部分,也是音頻通訊和會議系統中的首要問題。許多最近的AEC研究報告了在訓練和測試樣本(來自相同基礎分佈的合成數據集)上的良好性能。然而,AEC的性能常常在真實錄音上顯著降低。此外,在現實環境中存在背景噪聲和混響的狀況下,大多數傳統的客觀指標,如回聲回波損耗加強(ERLE)和語音質量感知評估(PESQ),與主觀語音質量測試沒有很好的相關性。在這個挑戰中,咱們開源了兩個大數據集來訓練在單對話和雙對話場景下的AEC模型。這些數據集包括來自web
咱們基於ITU-T P.808開源了一個在線主觀測試框架,以便研究人員快速測試他們的結果。這個挑戰的獲勝者將根據全部不一樣的單向談話和雙向談話的平均P.808平均意見分數(MOS)來選擇。算法
關鍵詞:聲學回聲消除、深度學習、單語、雙語、主觀測試數據庫
隨着遠程工做的日益普及和需求,諸如Microsoft Teams、Skype、WebEx、Zoom等遠程會議系統的使用顯著增長。爲了讓用戶體驗愉快和富有成效,必須有高質量的通話。在語音和視頻通話中,回聲引發的通話質量降低是語音和視頻通話質量較差的主要緣由之一。雖然基於數字信號處理(DSP)的聲學回聲消除(AEC)模型已被用於在通話過程當中消除這些回聲,但對於物理聲學設計較差的設備或超出其設計目標和實驗室的測試環境的設備,其性能可能會下降。在全雙工通訊模式下,這個問題變得更具挑戰性,由於在沒有顯著失真或衰減的狀況下,雙重通話場景的回聲很難抑制[1]。網絡
隨着深度學習技術的出現,一些用於AEC的監督學習算法與經典算法相比表現出了更好的性能[2,3,4]。一些研究也代表,將經典和深度學習方法相結合,如使用自適應濾波器和遞歸神經網絡(RNNs)[4,5]具備良好的性能,但僅適用於合成數據集。雖然這些方法對AEC模型的性能提供了一個很好的啓發式,但尚未證據代表它們在真實數據集上(不一樣的噪音和混響環境)的性能。這使得該行業的研究人員很難選擇一個可以在具備表明性的真實數據集上表現良好的模型。框架
大多數帶有評估的AEC論文使用的客觀測量有:回聲回波損耗加強(ERLE) [6]和語音質量感知評估(PESQ [7]。ERLE被定義爲:函數
$$E R L E=10 \log _{10} \frac{\mathbb{E}\left[y^{2}(n)\right]}{\mathbb{E}\left[\hat{y}^{2}(n)\right]}$$工具
其中$y(n)$是麥克風信號,$\hat{y}(n)$是加強語音。ERLE只有在沒有背景噪音的安靜房間裏測量時才合適,而且只適用於單向談話場景(不是兩向談話)。在存在背景噪聲的狀況下,PESQ也被證實與主觀語音質量沒有很高的相關性[8]。使用本挑戰中提供的數據集,咱們代表ERLE和PESQ與主觀測試的相關性較低(表1)。爲了在真實環境中使用帶有錄音的數據集,咱們不能使用ERLE和PESQ。須要一個更可靠、更穩健的評估框架,讓研究界的每一個人都能使用。
這個AEC挑戰旨在經過開放一個大型訓練數據集、測試集和主觀評估框架來刺激AEC領域的研究工做。咱們爲訓練AEC模型提供了兩個新的開源數據集。
最初的測試集將被髮布,供研究人員在開發過程當中使用,並在臨近結束時進行盲測,以決定最終的比賽獲勝者。咱們相信這些數據集不只是AECs的第一個開源數據集,並且是足夠大的數據集,能夠促進深度學習,在電信產品的運輸中具備足夠的表明性。
在[9]深度噪聲抑制挑戰中,咱們證實了一種衆包的主觀質量評價對語音加強挑戰是有效的。所以,咱們將再次使用ITU-T P.808 [10] 人羣源主觀質量評價對提交的AEC方法進行比較。在評價時,咱們採用了基於dnn的AEC方法(第4節)做爲參考。在線主觀評價框架將在第5節中討論。第6節介紹了挑戰規則和其餘後勤工做。
挑戰將包括兩個新的開源數據集,一個是真實的,一個是合成的。數據集可在https://github.com/microsoft/AEC-Challenge得到。
2.1 真實數據集
第一個數據集是經過大規模的衆包工做得到的。此數據集由如下場景中的超過2500個不一樣的真實環境、音頻設備和人類說話人組成:
每種狀況都包括揚聲器,麥克風和環回(loopback)信號。 圖1給出了近端單通話語音質量。使用Karjalainen等人[11]的方法估算了數據集的RT60分佈,如圖2所示。RT60估計值可用於對數據集進行採樣以進行訓練。
圖1.以95%的置信區間對近端單個談話片斷質量(P.808)進行了排序
圖2 混響時間分佈(T60)
咱們使用亞馬遜機械土耳其公司做爲衆包(crowdsourcing)平臺,並編寫了一個定製的HIT應用程序,其中包括一個自定義工具,評估人員下載並執行該工具以記錄上述六個場景。 數據集僅包含Microsoft Windows設備。
對於純淨的語音遠端信號,咱們使用來自愛丁堡數據集的語音片斷[12]。 該語料庫由簡短的單個說話者語音片斷(1到3秒)組成。 咱們使用了基於長期短時間記憶(LSTM)的性別檢測器來選擇相等數量的男性和女性說話者片斷。 此外,咱們將這些短片斷中的3到5個組合在一塊兒,以建立長度在9到15秒之間的片斷。 每一個剪輯均由一位性別發言人組成。 咱們建立了一個由500個男性和500個女性剪輯組成的性別平衡的遠端信號源。 記錄以設備支持的最大采樣率和32位浮點格式保存; 在發佈的數據集中,咱們使用自動增益控制將採樣下降到16KHz和16位,以最大程度地減小片斷。
對於有噪聲的語音遠端信號,咱們使用來自DNS Challenge[9]的數據以及該數據集中的近端單段通話場景的片斷。
對於近端語音,用戶會被提示閱讀TIMIT[13]句子列表中的句子。當用戶閱讀時,大約10秒的音頻被記錄下來。
第二個數據集提供了10,000個合成示例,分別表示單端通話,雙端通話,近端噪聲,遠端噪聲和各類非線性失真狀況。 每一個示例都包括遠端語音,回聲信號,近端語音和近端麥克風信號片斷。 咱們從LibriVox project1的[9]中得到的純淨語音和帶噪語音數據集中使用12,000個案例(100小時的音頻)做爲源剪輯來採樣遠端和近端信號。 LibriVox項目是志願者閱讀的公共領域有聲讀物的集合[9]。使用在線主觀測試框架ITU-T P.808從LibriVox項目中選擇了高質量的錄音(4.3 MOS 5)。 經過將乾淨的語音與從Audioset [14],Freesound2和DEMAND [15]數據庫中採樣的噪聲片斷混合在一塊兒,以不一樣的信噪比水平建立嘈雜的語音數據集。
爲了模擬遠端信號,咱們從1,627個說話人池中選擇一個隨機說話人,從說話人中隨機選擇一個片斷,並從片斷中採樣10秒的音頻。 對於近端信號,咱們隨機選擇另外一個說話人並獲取3-7秒的音頻,而後將其零填充到10秒。 爲了產生回聲,咱們從一個大型內部數據庫中隨機選擇一個房間脈衝響應與遠端信號進行卷積。在80%的狀況下,經過非線性函數處理遠端信號以模仿揚聲器失真。 該信號與近端信號以從-10 dB到10 dB均勻採樣的信噪比混合。 在50%的狀況下,從嘈雜的數據集中獲取遠端和近端信號。 前500個片斷可用於驗證,由於它們有一個單獨的發言者和房間脈衝響應列表。能夠在存儲庫中找到詳細的元數據信息。
將包括兩個測試集,一個在挑戰開始時,一個接近結束的盲測試集。 二者都包含大約800個錄音,並分爲如下幾種狀況:
咱們採用文獻[16]中的噪聲抑制模型來實現回聲消除的任務。 其中,具備門控循環單元的循環神經網絡將麥克風信號和遠端信號的級聯對數功率頻譜特徵做爲輸入,並輸出頻譜抑制掩碼(spectral suppression mask)。 STFT是根據幀長20 ms,幀移爲10ms,320點離散傅里葉變換計算的。 咱們使用兩個GRU層的堆棧,而後是具備S型激活功能的全鏈接層。 將估計的掩碼逐點乘以麥克風信號的幅度譜圖,以抑制遠端信號。 最後,爲了從新合成加強的信號,在麥克風信號和估計的幅度譜圖的相位上使用了短時傅立葉逆變換。 咱們在純淨頻譜圖和加強幅度頻譜圖之間使用均方偏差損失。 學習率爲0.0003的Adam優化器用於訓練模型。
AEC評估的主要標準是用於客觀評估(例如ERLE)的G.168 [6]和用於主觀評估的P.831 [17]。如前所述,ERLE和PESQ並非評估實際數據AEC性能的可行指標。 P.831第7節中給出的主觀測試是可行的,儘管它假設測試環境安靜。例如,在P.831中,爲了測量遠端的單端通話回聲性能,使用圖3中的設置進行錄音,並要求評估者對Sout處的回聲量進行評估。可是,任何背景噪聲都會使評估者混淆什麼是回聲泄露,什麼不是。咱們的解決方案是實現一個三方通話的主觀評分,評分者是偵聽者(見圖4)。爲了構造一個聽衆能夠聽到的延遲迴聲信號,將遠端信號(說話人信號)與AEC輸出的600ms延遲輸出信號相結合,以模擬較大的網絡延遲。這使評估者能夠聽到遠端語音和延遲的回聲泄漏(若是有),從而有助於評估者更好地區分回聲泄漏和噪聲。而後,咱們使用P.808框架[10]經過如下來自P.831 [17]的評級調查得到回聲MOS分數:您如何在此對話中判斷聲回聲的衰減
五、聽不清
四、能夠察覺但不煩人
三、有點煩
二、煩人
一、很是煩人
挑戰中使用的音頻管道如圖5所示。在第一階段(AGC1),使用傳統的自動增益控制目標語音水平在- 24dbfs。 AGC1的輸出保存在測試集中。 下一階段是AEC,參與者將處理該AEC並將其上傳到challenge CMT站點。下一步是傳統的噪聲抑制器(DMOS <0.1改進),以減小靜態噪聲。 最後,運行第二個AGC以確保語音水平仍爲-24 dBFS。
對於雙端通話場景,咱們使用標準的P.808 ACR等級來評估AEC麥克風輸出的MOS得分,這是Sout上P.831估計的措施之一。
主觀測試框架可在https://github.com/ microsoft/P.808得到。
圖3所示。AEC測試步驟。S是發送,R是接收
圖4.用於測量單個通話回聲的方法。 當說話人A講話時,B處的設備漏出回聲,而C正在收聽(並進行評級)
六、AEC挑戰規則和時間表
挑戰在於如何使用真實(而非模擬)測試集對實時算法的性能進行基準測試。 參與者將在測試儀上評估其AEC,並將結果(音頻片斷)提交以進行評估。 用於提交的每一個AEC的要求是
2020年9月8日:數據集發佈。
2020年10月2日:向參與者發佈盲測集。
2020年10月9日:在盲測集上提交客觀和P.808主觀評估結果的截止日期。
2020年10月16日:主辦方將通知參賽者比賽結果。
2020年10月19日:ICASSP 2021年常規論文提交截止日期。
2021年1月22日:書面接收/拒絕通知
2021年1月25日:獲獎者通知及獲獎指示,包括領獎截止日期。
參賽者可向aec challenge@microsoft.com發送與挑戰有關的任何問題或須要就挑戰的任何方面進行澄清的電子郵件。
這是第一個AEC挑戰,咱們但願它既有趣又有教育意義,對於參與者和論文的讀者以及它幫助產生的想法。
[1] 「IEEE 1329 standard method for measuring transmission performance of handsfree telephone sets,」 1999.[2] A. Fazel, M. El-Khamy, and J. Lee, 「Cad-aec: Context-aware deep acoustic echo cancellation,」 in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 6919–6923.[3] M. M. Halimeh and W. Kellermann, 「Efficient multichannel nonlinear acoustic echo cancellation based on a cooperative strategy,」 in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 461–465.[4] Lu Ma, Hua Huang, Pei Zhao, and Tengrong Su, 「Acoustic echo cancellation by combining adaptive digital filter and recurrent neural network,」 arXiv preprint arXiv:2005.09237, 2020.[5] Hao Zhang, Ke Tan, and DeLiang Wang, 「Deep learning for joint acoustic echo and noise cancellation with nonlinear distortions.,」 in INTERSPEECH, 2019, pp. 4255–4259.[6] 「ITU-T recommendation G.168: Digital network echo cancellers,」 Feb 2012.[7] 「ITU-T recommendation P.862: Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs,」 Feb 2001.[8] A. R. Avila, H. Gamper, C. Reddy, R. Cutler, I. Tashev, and J. Gehrke, 「Non-intrusive speech quality assessment using neural networks,」 in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 631–635.[9] Chandan KA Reddy, Vishak Gopal, Ross Cutler, Ebrahim Beyrami, Roger Cheng, Harishchandra Dubey, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, et al., 「The interspeech 2020 deep noise suppression challenge: Datasets, subjective testing framework, and challenge results,」 arXiv preprint arXiv:2005.13981, 2020.[10] Babak Naderi and Ross Cutler, 「An open source implementation of itu-t recommendation p. 808 with validation,」 arXiv preprint arXiv:2005.08138, 2020.[11] Matti Karjalainen, Poju Antsalo, Aki M¨akivirta, Timo Peltonen, and Vesa V¨alim¨aki, 「Estimation of modal decay parameters from noisy response measurements,」 J. Audio Eng. Soc, vol. 50, no. 11, pp. 867, 2002.[12] Cassia Valentini-Botinhao, Xin Wang, Shinji Takaki, and Junichi Yamagishi, 「Speech enhancement for a noise-robust textto- speech synthesis system using deep recurrent neural networks.,」 in Interspeech, 2016, pp. 352–356.[13] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S.Pallett, and N. L. Dahlgren, 「DARPA TIMIT acoustic phonetic continuous speech corpus CDROM,」 1993.[14] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal, and Marvin Ritter, 「Audio set: An ontology and human-labeled dataset for audio events,」 in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 776–780.[15] Joachim Thiemann, Nobutaka Ito, and Emmanuel Vincent, 「The diverse environments multi-channel acoustic noise database: A database of multichannel environmental noise recordings,」 The Journal of the Acoustical Society of America, vol. 133, no. 5, pp. 3591–3591, 2013.[16] Yangyang Xia, Sebastian Braun, Chandan KA Reddy, Harishchandra Dubey, Ross Cutler, and Ivan Tashev, 「Weighted speech distortion losses for neural-network-based real-time speech enhancement,」 in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 871–875.[17] 「ITU-T P.831 subjective performance evaluation of network echo cancellers ITU-T P-series recommendations,」 1998.