基於音頻和文本的多模態語音情感識別(一篇極好的論文,值得一看哦!)

基於音頻和文本的多模態語音情感識別 語音情感識別是一項具有挑戰性的任務,在構建性能良好的分類器時,廣泛依賴於使用音頻功能的模型。本文提出了一種新的深度雙循環編碼器模型,該模型同時利用文本數據和音頻信號來更好地理解語音數據。由於情感對話是由聲音和口語內容組成的,因此我們的模型使用雙循環神經網絡(RNN)對音頻和文本序列中的信息進行編碼,然後結合這些信息源中的信息來預測情感類。該體系結構從信號級到語言
相關文章
相關標籤/搜索