情感分析技術:讓智能客服更懂人類情感

簡介: 智能客服在解決客戶高頻業務問題的同時,也須要提供給客戶多維度的、具備類人能力的助理、導購、語聊和娛樂等服務能力,提升客戶對智能客服機器人的總體滿意度。在此過程當中,情感分析技術在機器人類人能力建設中起到了相當重要的做用。本文將圍繞智能客服系統中人機結合的服務形式,從五個維度總結和介紹情感分析技術在智能客服系統中的應用場景,包括情感分析算法模型的原理及實際落地使用方式和效果分析。 本文做者:宋雙永 王超 陳海青算法

image.png

引言

人機對話一直是天然語言處理領域內的重要研究方向之一,近年來隨着人機交互技術的進步,對話系統正逐漸走向實際應用。其中,智能客服系統受到了不少企業尤爲是中大型企業的普遍關注。智能客服系統旨在解決傳統客服模式須要大量人力的情況,在節約人力的同時,使得人工客服在針對特別問題或者特別用戶時可以提供更高質量的服務,從而實現「智能客服 + 人工客服」在服務效率和服務質量兩個維度上的總體提高。近年來,許多中大型公司都已經構建了本身的智能客服體系,例如富士通的 FRAP、京東的 JIMI 和阿里巴巴的 AliMe 等。安全

智能客服系統的構建須要依託於行業數據背景,並基於海量知識處理和天然語言理解等相關技術。初代智能客服系統主要面對業務內容,針對高頻的業務問題進行回覆解決,此過程依賴於業務專家對高頻業務問題答案的準確整理,主要的技術點在於精準的用戶問題和知識點之間的文本匹配能力。新型的智能客服系統將服務範圍定義爲泛業務場景,除了解決處理核心的高頻業務問題,智能導購能力、障礙預測能力、智能語聊能力、生活助理功能以及生活娛樂交互等方面的需求也一樣被重視和涵蓋。其中,情感能力作爲類人能力的重要體現,已經在智能客服系統的各個維度的場景中被實際應用,而且對系統類人能力的提高起到了相當重要的做用。網絡

一 智能客服系統中情感分析技術架構

image.png

圖 1 給出了經典的人機結合的智能客服模式,用戶可以經過對話的方式,接受來自機器人或者人工客服的服務,而且在接受機器人服務的過程當中,可以利用指令的方式或者機器人自動識別的方式跳轉到人工客服。在上述的完整客服模式中,情感分析技術已經被實際應用在多個維度的能力之上。架構

二 用戶情感檢測

1 用戶情感檢測模型介紹

用戶情感檢測是不少情感相關應用的基礎和核心。在本文中,咱們提出一種集成詞語義特徵、多元詞組語義特徵和句子級語義特徵的情感分類模型,用於識別智能客服系統用戶對話中包含的「着急」、「氣憤」和「感謝」等情感。關於不一樣層次語義特徵的抽取技術,相關工做中已經多有說起,咱們將不一樣層次的語義特徵結合到一塊兒,可以有效提高最終的情緒識別效果。圖 2 給出了該情感分類模型的架構圖。框架

image.png

2 句子級語義特徵抽取

Shen 等人[3]提出 SWEM 模型,該模型將簡單的池化策略應用於詞嵌入向量,實現句子級別的語義特徵抽取,而且基於此類特徵進行訓練獲得的分類模型和文本匹配模型可以獲得與經典的卷積神經網絡類模型和循環神經網絡類模型幾乎持平的實驗效果。函數

在咱們的模型中,咱們利用 SWEM 模型的特徵抽取能力,獲取用戶問題的句子級別語義特徵,並將其用於對用戶問題的情感分類模型中。性能

3 多元詞組語義特徵抽取

傳統的 CNN 模型在不少狀況下被用於抽取 n 元詞組語義特徵,其中 n 是一個變量,表示卷積窗口大小。在本文中,咱們根據經驗將 n 分別設置爲 二、3 和 4,而且針對每一種窗口大小,咱們分別設置 16個 卷積核,以用於從原始的詞向量矩陣中抽取豐富的 n 元詞組語義信息。學習

4 詞級別語義特徵抽取

咱們利用 LEAM 模型 [1] 抽取詞級別的語義特徵。LEAM 模型同時將詞語和類別標籤進行同維度語義空間的嵌入式表示,而且基於該表示進行文本分類任務的實現。LEAM 利用類別標籤的表示,增長了詞語和標籤之間的語義交互,以此達到對詞級別語義信息更深層次的考慮。圖 3(2)中給出了類別標籤和詞語之間的語義交互的圖示,而且給出了 LEAM 模型與傳統模型之間的對比。測試

image.png

最後,不一樣級別的語義特徵會在被合併在一塊兒以後,輸入到整個模型的最後一層,由邏輯迴歸模型進行最終的分類訓練。編碼

表 1 中給出了咱們提出的集成式模型和三個只考慮單個層次特徵的對比模型之間的線上真實評測效果對比結果。

image.png

三 用戶情感安撫

1 用戶情緒安撫總體框架介紹

本文中提出的用戶情緒安撫框架包括離線部分和在線部分,如圖 4 所示。

image.png

離線部分

首先須要對用戶的情緒進行識別。此處咱們選取了須要安撫的用戶常見的七種情緒進行識別,它們是懼怕、辱罵、失望、委屈、着急、氣憤和感謝。

其次,咱們對用戶問題中包含的主題內容進行識別,此處由專門的業務專家總結了用戶常見的 35 種主題表達內容,包括「抱怨服務質量」和「反饋物流太慢」等。主題識別模型,咱們使用與情緒識別一樣的分類模型設計。

知識構建是針對一些用戶表達內容更具體的狀況,整理其中高頻出現的而且須要進行安撫的用戶問題。這些具體的用戶問題之因此沒有合併到上述的主題維度進行統一處理,是由於主題維度的處理仍是相對粗粒度一些,咱們但願針對這些高頻的更聚焦的問題,一樣進行更聚焦的安撫回覆,實現更好的回覆效果。

針對情緒維度、「情緒 + 主題」維度和高頻用戶問題維度,業務專家分別整理了不一樣粒度的安撫回覆話術。特別地,在高頻用戶問題維度,咱們將每個「問題 - 回覆」搭配稱爲一條知識。

在線部分

基於知識的安撫是針對帶有具體情緒內容表達的用戶進行安撫,在此咱們使用了一種文本匹配模型來評價用戶問題與咱們整理好的知識中的問題的匹配度。若是在咱們整理好的知識中存在與當前用戶輸入問題意思很是相近的問題,則對應的回覆直接返回給用戶。

基於情緒和主題的情感回覆,是指同時考慮用戶表達內容中包含的情緒和主題信息,給予用戶合適的情感回覆。相比於基於知識的安撫,此種方式的回覆會更加的泛化一些。
基於情緒類別的情感回覆,是隻考慮用戶表達內容中的情緒因素而對用戶進行相應的安撫回覆。此回覆方式是上述兩種回覆方式的補充和兜底,同時回覆的內容也會更加的通用。

image.png

圖 5 給出了在線情感安撫的三個示例,分別對應上述的三種不一樣層面的回覆機制。

image.png
表 2:須要安撫的情感分類效果對比

表 2 給出了針對須要安撫情感的分類模型效果對比,包括每種情感類別的單獨效果以及最終的總體效果。表 3 給出了針對主題的分類模型效果對比。表4給出了針對幾種負面情感,增長了情緒安撫以後,用戶滿意度的提高效果。表 5 給出了針對感激這種情感,增長了情緒安撫以後,用戶滿意度的提高效果。
image.png

四 情感生成式語聊

1 情感生成式語聊模型

圖 6 中給出了智能客服系統中的情感生成式語聊的模型圖。圖中,source RNN 起到了編碼器的做用,將源序列s映射爲一箇中間語義向量 C,而 target RNN 做爲解碼器,則可以根據語義編碼 C 以及咱們設定的情緒表示 E 和主題表示 T,解碼獲得目標序列 y。此處的 s 和 y,分別對應圖中由詞語序列組成的「今天心情很好」和「好開心呀!」兩個句子。

一般,爲了使解碼器可以保留來自編碼器的信息,編碼器的最後一個狀態將做爲初始狀態傳遞給解碼器。同時,編碼器和解碼器每每使用不一樣的 RNN 網絡用以捕獲問句和回覆句不一樣的表達模式。具體的計算公式以下:

image.png

雖然基於 Seq2Seq 的對話生成模型取得了不錯的效果,可是在實際應用中模型很容易生成安全可是無心義的回覆。緣由在於該模型中的解碼器僅僅接收到編碼器最後的一個狀態輸出 C,這種機制對處理長期依賴效果不佳,由於解碼器的狀態記憶隨着新詞的不斷生成會逐漸減弱甚至丟失源序列的信息。緩解這個問題的一個有效方式是引入注意力機制[2]。

image.png

在引入注意力機制的 Seq2Seq 框架中,最後解碼器的輸出層根據輸入預測出單詞的機率爲:

image.png

其中, image.pngimage.png時刻解碼器的隱狀態輸出,image.png的計算公式爲:
image.png

image.png

對於編碼的每一個輸出image.png,此處引入不一樣權重:

image.png

每個隱狀態image.png的權重image.png的計算公式爲:

image.png

訓練過程的目標函數與預測過程當中的搜索策略與傳統 RNN 一致,此處再也不贅述。

2 情感生成式語聊模型結果

模型訓練完成以後,在真實的用戶問題上進行測試,結果由業務專家進行檢查,最終的答案合格率約爲 72%。另外,回覆文本的平均長度爲 8.8 個字,很是符合阿里小蜜語聊場景中對回覆長度的需求。表 6 中給出了本文模型 AET(Attention-based emotional & topical Seq2Seq model)與傳統 Seq2Seq 模型的效果對比。對比主要集中在內容合格率以及回覆長度兩個方面。添加了情緒信息以後,回覆內容較之傳統 seq2seq 模型會更爲豐富,而符合用研分析的「5 - 20字」最佳機器人語聊回覆長度的內容佔比也會大幅增長,最終使得總體的回覆合格率提高明顯。

image.png

圖 7 中給出了阿里小蜜情緒生成式語聊模型在小蜜空間中的應用示例。圖中兩個答案均由情緒生成式模型給出,而且,對於用戶辱罵機器人太傻的用戶輸入,咱們的模型能夠根據設置的對應合理的話題和情緒,產生不一樣的答案,豐富了答案的多樣性,圖中兩個答案,則是由‘委屈’和‘抱歉’兩個情緒產生。

image.png

image.png

五 客服服務質檢

1 客服服務質量問題定義

本文所說的客服服務質檢是針對人工客服在和客戶對話的過程當中可能出現的存在問題的服務內容進行檢測,從而更好地發現客服人員在服務過程當中存在的問題並協助客服人員進行改進,達到提升客服服務質量,最終提升客戶滿意度效果。據做者所知,目前尚未公開實現的針對客服系統中客服服務質量檢測的人工智能相關算法模型。

與人機對話不一樣,人工客服和客戶的對話並非一問一答形式,而是客戶和客服分別可以連續輸入多句文本。咱們的目標是檢測每一句客服的話術內容是否包含「消極」或者「態度差」兩種服務質量問題。

2 客服服務質檢模型

爲了檢測一句客戶話術的服務質量,咱們須要考慮其上下文內容,包括用戶問題和客服話術。咱們考慮的特徵包括文本長度、說話人角色和文本內容。其中,針對文本內容,除了利用 SWEM 模型對待檢測的當前客服話術進行特徵抽取,咱們還對上下文中的每輪話術進行情緒檢測,發現用戶情緒類別和客服情緒類別做爲模型特徵,而此處使用的情緒識別模型也如第 2 章中所述一致,亦再也不贅述。此外,咱們還考慮了兩種結構(圖 8 中模型 1 和圖 9 中模型 2)對基於上下文內容的文本序列語義特徵進行抽取。

其中,模型 1 在對當前客服話術及其上下文每句文本進行基於 GRU 或 LSTM 的編碼以後,針對編碼結果,考慮利用正向和反向 GRU 或者 LSTM 分別對當前待檢測客服話術的上文和下文的編碼結果進行再次的序列化編碼,如此獲得的兩個序列化編碼結果均是以當前話術爲尾句,可以更好的體現當前話術的語義信息。模型結構如圖 8 所示。

另外,模型 2 將當前客服話術及其上下文的編碼結果,再次按照先後順序進行總體的正向 GRU 或 LSTM 編碼做爲最終的語義特徵。模型結構的部分展現如圖 9 所示。模型 1 與模型 2 相比,模型1會更加凸顯當前待檢測話術的語義信息,而模型 2 則更加多得體現總體上下文的序列化語義信息。

image.png

3 客服服務質檢實驗結果

image.png

咱們比較兩種上下文語義信息抽取模型的效果,表7中給出了對比結果,結果顯示模型 1 的效果要優於模型 2,可見對於當前待檢測話術的語義信息確實須要給予更多的權重,而上下文的語義信息能夠起到輔助識別的做用。此外,以前提到的 GRU 或者 LSTM 兩種方法在實際的模型訓練過程當中,效果差異不大,可是 GRU 方法要比 LSTM 方法在速度上更快一些,所以全部的模型實驗過程當中均使用了 GRU 方法。

此外,區別於模型層面的指標分析,咱們針對模型在實際的系統層面的指標也進行了相應的分析,包括了質檢效率以及召回率兩個維度。這兩個指標,咱們是以模型的結果與以前純人工質檢的結果進行對比獲得。如表 8 中所示,無論是質檢效率仍是質檢的召回率都獲得了很是大的提高。其中,人工質檢的召回率比較低的緣由,是由於人工不可能檢測全部的客服服務記錄。

image.png

六 會話滿意度預估

1 會話滿意度

目前在智能客服系統的性能評估指標中,有一項最爲重要的指標爲用戶會話滿意度。而針對智能客服系統中的用戶會話滿意度自動預估的工做,據做者所知尚未相關的研究成果。

針對智能客服系統中的會話滿意度預估場景,咱們提出了會話滿意度分析模型,能夠更好的反應當前用戶對智能客服的滿意度程度。因爲不一樣用戶存在評價標準差別,會存在大量會話內容、會話答案來源、會話情緒信息徹底相同的狀況下情緒類別不一致的狀況。所以咱們採用了兩種模型訓練方式:第一種是訓練模型擬合情緒類別(滿意、通常、不滿意)的分類模型,另外一種是訓練模型擬合會話情緒分佈的迴歸模型,最後對兩種方式效果作了對比。

2 會話滿意度特徵選取

會話滿意度模型考慮了各類維度信息:語義信息(用戶話術)、情緒信息(經過情感檢測模型獲取)、答案來源信息(回覆當前話術的答案來源)。

語義信息是用戶與智能客服交流過程當中所表達的內容信息,它能夠從用戶話術中較好反應用戶當前滿意情況。咱們在模型中使用的語義信息是指會話中的多輪話術信息,在模型處理過程當中,爲了保證每次模型可以處理相同輪次的話術,咱們實驗中只使用會話中最後4句用戶話術,選擇此種方式的緣由是經過會話數據分析,用戶在會話即將結束時的語義信息與總體會話滿意程度更爲相關。好比,用戶在會話結尾時表達感激之類的話術基本表示滿意,而表達批評之類的話術則極可能表示了對服務的不滿。

情緒信息通常在用戶滿意度方面起着很是大的參考做用,當用戶出現憤怒、辱罵等極端情緒時,用戶反饋不滿意的機率會極大。此處的情緒信息與語義信息中的話術一一對應,對選取的幾輪話術分別進行情緒識別,獲取對應的情緒類別信息。

答案來源信息能夠很好的反應用戶遇到何種問題,因爲不一樣的答案來源表明着不一樣業務場景,不一樣場景問題產生的用戶滿意度情況差別性比較明顯。好比,投訴、維權類會比諮詢類更容易致使用戶不滿意。

3 會話滿意度模型

在本文中,咱們提出告終合語義信息特徵、情緒信息特徵和答案來源信息特徵的會話滿意度預估模型。模型充分考慮了會話中的語義信息,而且使用了數據壓縮的方式將情緒信息和答案來源信息進行了充分表達。模型結構如圖 10 所示。

語義特徵抽取。語義信息抽取方式使用層次 GRU/LSTM,第一層獲取每句話的句子表示(圖 10 中 first layer GRU/LSTM 部分),第二層根據第一層句子表示結果得到多輪用戶話術的高階表示。

image.png

(圖 10 中 second layer GRU/LSTM 部分),此處充分利用了用戶話術的序列信息。除此以外,還將獲取最後一句話的 SWEM 句子特徵,以加強最後一句話術語義特徵的影響。

情緒特徵抽取:因爲獲取的情緒特徵是 one-hot 類型,而 one-hot 缺點比較明顯,數據稀疏且沒法表示情緒間直接關係。此處咱們學習一個情緒 embedding,來更好的表達情緒特徵。

答案來源特徵抽取:初始答案來源特徵一樣爲 one-hot 特徵,但因爲答案的來源有 50多種,致使數據很是稀疏,所以須要進行特徵壓縮,此處一樣使用了 embedding 學習方式,來表示答案來源特徵。

模型預測層:分別嘗試了滿意度類別預測和滿意度分佈預測,前者預測屬於分類模型,後者屬於迴歸模型。

4 會話滿意度預估實驗結果

image.png

實驗結果如圖 11 中所示。從實驗結果來看分類模型滿意度預估效果較差,平均比實際用戶反饋高了 4 個百分點以上,迴歸模型能夠很好的擬合用戶反饋結果,並且減少了小樣本結果的震盪,符合預期。如表 9 中所示,迴歸模型的均值與用戶真實反饋的結果的差值僅爲 0.007,而方差則比以前減少了三分之一,證實了迴歸模型的有效性。

image.png

七 總結

本文總結了目前智能客服系統中情感分析能力的一些實際應用場景以及相應的模型介紹和效果展現。雖然情感分析能力已經滲透到了智能客服系統人機對話過程的各個環節中,可是目前也只能算是一個良好嘗試的開始,其在智能客服系統的類人能力構建進程中還須要發揮更大的做用。

相關文章
相關標籤/搜索