近日,受到新冠疫情的影響,原計劃於2020年10月25日至10月29日期間,在中國上海+線上同步舉行的國際語音頂級會議Interspeech 2020最終改成線上舉行。京東人工智能研究院有4篇論文脫穎而出,成功入選本次大會。分別在聲音事件定位與檢測、語音去混響、語音驗證系統、神經網絡聲碼器等領域取得突破。同時,京東智聯雲做爲本屆會議的鑽石級贊助商,致力於增強工業界和學術界的技術協做,支持會議順利進行。web
Interspeech 2020是由國際語音通訊協會ISCA組織的語音研究領域的頂級會議之一,是全球最大的綜合性語音信號處理領域的科技盛會。該會議每一年舉辦一次,今年大會是第21屆INTERSPEECH會議,也是第二次在中國舉辦。本屆會議以「Cognitive Intelligence for Speech Processing」爲主題,內容涵蓋信號處理、語音識別、天然語言處理、神經機器翻譯等領域。算法
京東人工智能研究院專一於持續性的算法創新,80%的研究都由京東實際的業務場景需求爲驅動,聚焦NLP語音、計算機視覺、機器學習(包括深度學習和強化學習)等領域。在Interspeech 2020中,京東人工智能研究院提交的多篇論文通過重重審覈,最終被大會收錄。本文將向你們分享京東人工智能研究院入選的4篇論文主要思路與創新點。segmentfault
01,基於多方位波束造成和多任務學習的聲音事件定位與檢測網絡
(Sound Event Localization and Detection Based on Multiple DOA Beamforming and Multi-task Learning)app
聲音事件檢測和定位在智能家居、智能安防等領域具備重要的應用價值,而環境中的噪聲、混響、多聲源混疊等給該任務帶來了巨大挑戰。聲音事件檢測和定位一般基於麥克風陣列,更普遍而言,如何有效利用多通道麥克風信號,提升基於深度神經網絡的語音相關任務的性能,也是仍需解決的問題。框架
本文提出了一種基於多方位波束造成和多任務學習的聲音事件檢測和定位方法,主要特色爲利用傳統聲學信號處理爲神經網絡提供更爲豐富的信息。具體而言,經過指向不一樣預約方位的固定波束造成,可提取各個方位的聲源信號,並抑制該方位以外的干擾信號。該方法無需預先進行聲源定位或掩蔽估計,便可得到差別化多樣化的空間表示。機器學習
本文推導了採用訓練數據基於互功率譜的導向矢量計算方法,以消除對麥克風陣列幾何信息的依賴。進一步,本文分別設計了聲源定位網絡和基於多任務學習的聲音事件檢測網絡。咱們在DCASE2019聲音事件檢測和定位數據集上進行了評估,結果代表所提算法取得了最好的綜合性能。函數
02,SkipConvNet:基於功率譜最優平滑及跨層卷積神經網絡的語音去混響性能
(Skip Convolutional Neural Network for Speech Dereverberation using Optimally Smoothed Spectral Mapping)學習
本文所述研究爲京東人工智能研究院和德克薩斯大學達拉斯分校的合做研究項目。全卷積神經網絡的有效性已經在衆多語音應用中獲得展示。該網絡的一個重要變體是「 UNet」,即包含跨層鏈接的encoder-decoder的卷積網絡。
本研究提出了基於「 SkipConvNet」的降混響算法,該算法用多個卷積網絡替換UNet的每一個跨層鏈接,爲decoder提供更爲直觀的信息表示,以提升網絡性能。本文還提出了基於最優平滑功率譜估計的預處理步驟,這有助於進一步提升網絡的學習能力。採用REVERB Challenge語料庫的實驗結果代表,所提方法在客觀質量評估上顯著優於基線系統,並明顯改善混響條件下的語音識別及說話人識別性能。
03,FFSVC 2020 Challenge JD AI聲紋驗證系統
(The JD AI Speaker Verification System for the FFSVC 2020 Challenge)
遠場聲紋識別系統中,聲學環境的複雜性以及多變性對聲紋識別及驗證的性能帶來巨大挑戰。本文基於FFSVC2020遠場聲紋驗證競賽,主要探索了數據擴充、模型結構以及打分策略對遠場聲紋驗證性能的影響。
FFSVC2020比賽提供了約1100小時共計120位說話人的數據,如何利用大量的開源近場數據進行數據擴充是本文探討的主要方向之一。咱們採用的策略包括:
1)採用beamforming, voice channel switching和dereverberation等技術將遠場數據變換到近場;
2)經過計算FFSVC2020遠場數據和近場數據之間的房間衝激相應函數(RIR,room impulse response)以及採用模擬仿真生成大量的RIR,在近場數據上增長卷積噪聲;
3)利用錄製的大量的環境噪聲在近場數據上增長加性噪聲;
4)將data augmentation技術用於訓練集或者用於測試集增長數據的多樣性。實驗結果代表,data augmentation可以大幅提高系統的性能。
此外,本文還探索了TDNN,TDNNF,ResNet, Transformer等模型結構在聲紋驗證裏的應用。結合得分規整技術和兩級打分策略,相比於官方基線系統,minDCF 絕對下降0.2393,EER絕對下降3.16%。
04,Efficient WaveGlow:一種改進的可提升速度的WaveGlow聲碼器
(WaveGlow: An Improved WaveGlow Vocoder with Enhanced Speed)
在高質量的語音合成系統中,像WaveGlow這種神經網絡聲碼器已經成爲了必不可少的一部分。Efficient WaveGlow是咱們提出的一個基於歸一化流的高效的神經網絡聲碼器。
和WaveGlow同樣,Efficient WaveGlow採用歸一化流做爲網絡框架,每個流操做由一個affine coupling layer和可逆的1x1卷積層構成。爲了減小模型的參數量,提高推理速度,Efficient WaveGlow在如下3個方面對WaveGlow進行了改進:
1)把基於WaveNet網絡結構的仿射變換網絡改成了基於FFTNet網絡結構的放射變換網絡,FFTNet網絡結構比WaveNet更簡單高效,擁有更少的參數量;
2)採用分組卷積進一步減小模型的參數量,提高模型效率;
3)咱們嘗試了在仿射變換網絡中的每個卷積層中共享local condition,用以減小冗餘特徵,減小模型的參數量。
Efficient WaveGlow與WaveGlow相比,合成一樣長度的音頻的計算量下降了12倍以上。一樣,模型的參數量也下降了12倍以上。實驗結果代表,Efficient WaveGlow並無明顯的聲音質量降低,可是卻能實現CPU上推理速度6倍的提高以及P40上推理速度5倍的提高。
關於京東AI研究院京東AI研究院專一於持續性的算法創新,多數研究將由京東實際的業務場景需求爲驅動。研究院的聚焦領域爲:計算機視覺、天然語言理解、對話、語音、語義、機器學習等實驗室,已逐步在北京、南京、成都、硅谷等全球各地設立辦公室。
推薦閱讀:
歡迎點擊【京東智聯雲】,瞭解開發者社區
更多精彩技術實踐與獨家乾貨解析
歡迎關注【京東智聯雲開發者】公衆號