產業實踐推進科技創新,京東科技集團3篇論文入選ICASSP 2021

ICASSP 2021將於2021年6月6日-11日在加拿大多倫多拉開序幕,憑藉在語音技術領域的紮實積累和前沿創新,京東科技集團的 3篇 論文已經被 ICASSP 2021接收。git

ICASSP全稱International Conference on Acoustics, Speech and Signal Processing(國際聲學、語音與信號處理會議),是由IEEE主辦的全世界最大的,也是最全面的信號處理及其應用方面的頂級學術會議。京東科技集團這次的入選論文,在國際舞臺全方位展現了 自身在語音加強、語音合成、多輪對話方面的實力。github

01.Neural Kalman Filtering for Speech Enhancement

基於神經卡爾曼濾波的語音加強算法研究

*論文連接:https://arxiv.org/abs/2007.13962算法

因爲複雜環境噪聲的存在,語音加強在人機語音交互系統中扮演重要的角色。基於統計機器學習的語音加強算法一般採用機器學習領域現有的經常使用模塊(如全鏈接網絡、遞歸神經網絡、卷積神經網絡等)構建加強系統。然而,如何將傳統語音信號處理中基於專家知識的最優化濾波器設計理論,有效地應用到基於機器學習的語音加強系統中還是一個仍未解決的問題。segmentfault

京東科技集團入選論文《Neural Kalman Filtering for Speech Enhancement基於神經卡爾曼濾波的語音加強算法研究》提出了 神經卡爾曼濾波的語音加強框架,將神經網絡和最優濾波器理論有機結合,並採用監督學習方法訓練獲得卡爾曼濾波的最優權重。網絡

研究人員首先構建了基於遞歸神經網絡的語音時序變化模型。和傳統的卡爾曼濾波器相比,該模型摒除了語音變化服從線性預測模型的非合理假設,能夠針對實際語音的非線性變化進行建模。一方面,基於該時序模型和卡爾曼隱狀態向量信息,算法首先獲得語音長時包絡預測。另外一方面,經過融合當前時刻的觀測信息,系統進一步求解基於傳統信號處理的維納濾波的語音頻譜預測。系統最終輸出是語音長時包絡預測和維納濾波預測的線性組合。基於傳統卡爾曼濾波器理論,本系統直接獲得線性組合權重的最優解,經過設計端到端系統,能夠同步更新語音時變網絡、和維納濾波器相關的噪聲估計網絡的權重。本研究基於 Librispeech語音集PNL-100Nonspeech-SoundsMUSAN噪聲集 的實驗結果代表,所提算法在信噪比增益、語音感知質量(PESQ)和語音可懂度(STOI)指標上均取得了比傳統基於UNET和CRNN框架的語音加強算法更好的性能。框架

02.Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis

基於跨句信息的端到端語音合成韻律建模

*論文連接:機器學習

https://www.zhuanzhi.ai/paper...性能

儘管目前基於端到端的語音合成技術已經實現了比較天然,韻律相對豐富的語音合成效果,可是並無採用篇章結構信息而是隻採用了當前句的語言學特徵進行語音合成。一般,韻律信息是和上下文的篇章結構強烈相關的,一樣的一句文本在不一樣的上下文語境下會有徹底不一樣的韻律表現,所以只用當前句子文本特徵進行語音合成的端到端系統在合成一段文本的時候,很難根據上下文信息將一段文本轉換爲天然的、韻律表現豐富的語音。學習

京東科技集團入選論文《Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis基於跨句信息的端到端語音合成韻律建模》採用了 目前主流的BERT模型來提取待合成文本的跨句特徵向量,而後利用該上下文向量改善基於端到端的語音合成模型的韻律效果。測試

▲圖2:模型結構示意圖▲

研究人員沒有采用任何顯示的韻律控制信息,而是經過BERT語言模型提取了待合成句子的上下文句子的跨句特徵表徵,而且將該特徵表示做爲了目前主流的端到端的語音合成算法的額外輸入。論文探討了兩種不一樣跨句特徵的使用方式,第一種是將全部的上下文句子的跨句特徵拼接起來用來做爲端到端的語音合成系統的一個總體的輸入,第二種方式是將全部的上下文句子的跨句特徵做爲一個序列,而後用待合成文本的每一個語音單元和這個序列進行注意力計算,而後能夠經過計算獲得的注意力進行對上下文句子的跨句特徵進行加權求和計算獲得每一個語音單元對應的跨句特徵。第二種跨句特徵使用方式,可讓每一個發音單元獲得一個細粒度的、對當前單元發音有幫助的跨句特徵。

實驗結果代表, 本研究在端到端的語音合成系統中結合跨句特徵以後,能夠有效的改善合成段落文本天然度和表現力。 本研究分別在中文和英文有聲讀物的數據集上驗證了這一實驗結果。而且,在對比測試結果中,相比咱們的基於端到端的基線模型,絕大部分測試者更加喜歡本研究中結合了跨句向量表徵的語音合成算法合成出的音頻。

03.Conversational Query Rewriting with Self-supervised Learning 

基於自監督學習的對話Query改寫

*論文連接:

https://github.com/note-lh/pa...

在多輪對話系統中,用戶傾向於簡短、口語化的表達,表述中存在着大量信息缺失和指代的現象。這些現象致使了對話機器人難以理解用戶的真實意圖,大大增長了系統應答的難度。爲提升對話系統的水平,Query改寫根據用戶的歷史會話,補全用戶的話語,以恢復全部省略和指代的信息。然而,目前存在的Query改寫技術均採用監督的學習方法,模型的效果嚴重受限於標註數據的規模,對技術在真實業務場景的落地產生了較大的阻礙。另外,用戶問題在發生改寫後,意圖是否發生變化並無受到已有工做的關注,如何保證用戶問題在改寫後的意圖一致性還是一個亟待解決的問題。京東科技集團入選論文《Conversational Query Rewriting with Self-supervised Learning 基於自監督學習的對話Query改寫》 提出了自監督的Query改寫方法。 當用戶問題與歷史會話出現共現詞語時,會以特定地機率刪除共現詞或者採用代詞進行替換,最後Query改寫模型根據歷史會話還原出用戶的原始問題。相較於監督學習方法,自監督的學習方式可低成本的獲取大量訓練數據,充分發揮模型的表徵學習能力。

京東研究人員還進一步提出改進模型Teresa, 從兩個方面提升改寫模型的質量和準確性。 一是在Transformer編碼層引入關鍵詞檢測模塊, 提取關鍵詞指導句子生成。首先對歷史會話(context)的編碼輸出構建自注意力圖,獲得歷史會話中詞語之間的關聯度;而後利用Text Rank算法計算詞語的重要性得分;最後詞語的重要性得分做爲先驗信息融入解碼器,指導模型生成含有更多關鍵信息的問句。 二是提出意圖一致性模塊, 在Transformer編碼器的輸入文本中增長一個特殊標籤[CLS], 獲取文本內容的意圖分佈,經過約束意圖分佈保持意圖一致性。原始會話(Context, Query)與生成的句子(Target)共享Transformer編碼器,分別獲得改寫先後的意圖分佈,咱們將二者的分佈保持一致,進而保證生成句子的意圖一致性。

京東科技集團做爲京東對外提供技術服務的核心板塊,一直致力於前沿研究探索,並持續以科技引領,助力城市和產業實現數智化升級。截至目前,京東科技集團在AAAI、IJCAI、CVPR、KDD、NeurIPS、ICML、ACL、ICASSP等國際AI頂級會議上共發表相關論文近 350+篇 ,並在多項國際性學術賽事中斬獲 19項 世界 第一 。相信將來,京東科技集團將持續在語音語義、計算機視覺、機器學習等領域發力,以科技助力實體經濟,切實改變每一個人的生活。

推薦閱讀

歡迎點擊【京東科技】,瞭解開發者社區

更多精彩技術實踐與獨家乾貨解析

歡迎關注【京東科技開發者】公衆號

相關文章
相關標籤/搜索