基於音頻和文本的多模態語音情感識別(一篇極好的論文，值得一看哦！)

時間 2021-01-13

原文原文鏈接

基於音頻和文本的多模態語音情感識別語音情感識別是一項具有挑戰性的任務，在構建性能良好的分類器時，廣泛依賴於使用音頻功能的模型。本文提出了一種新的深度雙循環編碼器模型，該模型同時利用文本數據和音頻信號來更好地理解語音數據。由於情感對話是由聲音和口語內容組成的，因此我們的模型使用雙循環神經網絡（RNN）對音頻和文本序列中的信息進行編碼，然後結合這些信息源中的信息來預測情感類。該體系結構從信號級到語言