內容來源:宜信技術學院第3期技術沙龍-線上直播|AI中臺——智能聊天機器人平臺主講人:宜信科技中心AI中臺團隊負責人王東前端
導讀:隨着「中臺」戰略的提出,目前宜信中臺建設在思想理念及架構設計上都已經取得了不少成果。宜信是如何藉助中臺化的思想打造「AI中臺」及相關的智能產品呢?本次直播,宜信科技中心AI中臺團隊負責人王東老師分享了宜信AI中臺的具體實施路徑,並重點介紹了AI中臺的智能產品——智能聊天機器人平臺,包括智能聊天機器人平臺的背景理念、設計思想、技術架構和應用場景,該平臺能提供什麼樣的能力,以及它如何快速地支持業務方,提供一種以中臺化的思想來建設智能產品的實踐思路。python
——————web
前兩期技術沙龍分別分享了宜信AI中臺和數據中臺的建設實踐,本次分享將先回顧AI中臺的整體設計和實施路徑,以及AI中臺與數據中臺的關係,再詳細介紹基於中臺思想建設的智能聊天機器人平臺,包括其技術架構、技術原理、核心功能點、應用場景以及應用效果。算法
隨着業務的不斷髮展,業務處於不一樣的發展階段,對數據的需求也從剛開始的可用-知足BI分析,到後來的易用-敏捷化分析,到如今的好用-數據智能化。例如前臺系統提出客戶細分、個性化推薦、智能問答、模型預測等需求,後臺數據探索須要進行關聯分析、聚類分析、持續分析等,這些都向咱們提出了數據智能化的需求。數據庫
數據中臺除了提供平臺能力之外,還提供了一些更高級的能力,好比把數據變成一種基礎服務提供給業務方,業務方能夠以自助的方式在數據中臺上獲取數據、進行數據處理、數據探索、數據挖掘、分析鑽取、多維分析、自助化報表、數據分享等,以快速實現本身的商業價值。api
隨着業務的發展,愈來愈多智能化的數據需求被提出,這些智能化需求涉及到模型訓練、數據標註、特徵工程、模型部署、性能監控等,須要使用機器學習、深度學習等算法支持。數據中臺的主要目標仍是服務數據,對於智能化和模型並不能很好地支持,所以AI中臺應運而生。安全
咱們把智能服務的需求抽象出來,造成一個獨立的AI中臺層。AI中臺是一個用來構建智能服務的基礎設施平臺,對公司所需的模型提供分佈分層的構建能力和全生命週期管理的服務,鼓勵各個業務領域將基礎性、場景性、通用性的AI能力沉澱到平臺中,增強模型複用、組合創新、規模化,最終實現降本增效和快速響應業務方的目的。微信
既然提到了數據中臺和AI中臺,不少人會問:數據中臺和AI中臺是什麼關係呢?restful
數據中臺和AI中臺二者是相互依存、承前啓後的關係。網絡
首先,數據中臺和AI中臺都對外提供服務,只是側重點不一樣。
其次,數據中臺和AI中臺是相互依存,相互支持的。
在過去,不少算法團隊更像是算法外包團隊,根據不一樣業務線的需求,各自構建陣地,逐個攻克目標。這樣的形式雖然也取得了不少成績,但存在重複建設、效率有限的問題。
咱們將這些問題總結以下:
這些都是AI中臺須要解決的痛點,針對以上痛點,咱們但願:
總結起來就是:可複用化、服務統一化、對接數據中臺、流程角色優化、運行監控化和資源管控化,最終讓AI中臺成爲一個強大的AI能力支持中心,根據業務需求快速提供火力支援,迅速完成商業價值。
下面介紹AI中臺的平臺架構。
最下面是數據中臺,提供數據處理、數據分析、數據管理、數據安全、數據服務等能力。最上面是業務前臺,包括各條業務線。AI中臺處於數據中臺和業務前臺的中間位置。
如圖所示,整個AI中臺由幾個模塊組成:
上圖展現AI中臺的能力架構。咱們以能力的角度來描述AI中臺對外輸出。除了前文介紹的服務運行能力、監控預警能力、資源管理能力(就是圖中左邊的幾個模塊)之外,咱們把AI中臺的能力分爲4層:
好比數據獲取能力、在線訓練能力、在線標註能力、特徵工程能力、自助訓練能力等。這些能力是經過AI工具集和AIlab來實現的。
這層的用戶主要包括:
AI技術層主要提供:AI基礎能力,包括詞法分析、語音合成、文章分類、圖像識別等,這些本質上是AI技術NLP、語音、圖像、視頻等大分類裏的能力。
AI業務層主要提供AI技術與業務相結合後能提供的能力,好比:評論觀點提取、文章標籤、卡證類識別、人臉識別、視頻審查等。
AI技術層和業務層的區別在於:AI技術層主要提供AI基礎能力,好比NLP、CV、語音、視頻等。而AI業務層主要是將AI技術與具體的業務場景結合起來,例如身份證識別、學歷識別、驗證碼識別等。
這兩層的用戶是:業務團隊的應用開發人員,能夠直接調用智能服務,從而實現業務場景智能化,例如:短文本類似度、語言合成、票據識別等。
這一層以產品的形式對外提供服務,例如:智能機器人產品、知識圖譜產品等。
這層的用戶是:公司的業務人員或公司的直接客戶,他們經過直接使用產品就能夠得到結果, 例如:機器人。
上面3層都屬於AI資產。從影響力角度來看,產品層的影響力最大,依次下來是業務層、技術層,最後是平臺層。咱們在AI中臺的實施路徑上,也會按照這個優先級去構建和實施。
數據中臺的口號是平民化和敏捷化。AI中臺的口號是開放化。
AI中臺的建設思路是但願多方聯合,公開透明,普遍參與,協商一致促進AI能力沉澱,增強AI服務複用,降本增效。
咱們更加關注於通用性的AI需求,爲各個領域的AI應用團隊提供通用化智能服務。強調平臺性和可複用性,鼓勵基礎類、場景類AI服務的通用化、平臺化。
普遍支持大中小業務領域AI應用團隊面臨的大量智能業務需求,提供模型學習平臺與模型運行監控託管服務以及通用的AI工具,方便前臺業務快速上線智能應用。在實施過程當中也會充分利用包括數據中臺在內的現有技術資源,並根據業務需求強弱和重要性來肯定實施路線。
咱們但願AI再也不是錦上添花,而是必備的能力,讓開發者從新迴歸到業務的理解和創意的賽道上來,關注本身的業務邏輯。AI能力將會所有開放給開發者和使用者,這些能力包括語音、視頻、天然語言處理、知識圖譜等,咱們會將這些能力封裝好,開發者直接調用就能夠。
基於中臺化思想,咱們是如何建設機器人平臺的?
智能聊天機器人,是一種經過天然語言模擬人類進行對話的程序。
目前,特定場景和領域的聊天機器人已經展示出了很高的天然語言理解與處理能力,例如:小度、Siri、小愛同窗等。
智能聊天機器人能夠代替企業中相對固化、重複的人力密集型任務或流程,包括:
典型的應用場景:智能聊天機器人除了能夠閒聊之外,還能夠用在問答做爲問答機器人,回答專業領域的問題;做爲任務機器人完成線上,甚至部分線下的任務;做爲推薦機器人,推薦文章、音樂、產品;做爲助理機器人,集成以上各類功能。
智能聊天機器人能夠對外提供客戶服務、對內進行業務輔助,實現全方位的效能提高,降本增效。
智能聊天機器人的本質是會話式UI。會話式UI是經過會話形式將已有數據、功能、服務展現給用戶。
會話式UI與傳統UI相比,具備獨特的優點。
正如三星實驗室高級設計師Golden Krishna所說:「最好的界面就是沒有界面」。不少人認爲語音交互比聊天機器人的干擾更小,能提供更好的使用體驗。
這也是致使各類智能音箱在市場反響火爆的緣由,語音交互已經走進千家萬戶、世界各地。
目前會話式UI與業務系統緊密集成,是發展的主要趨勢。經過集成各個業務系統,能夠打造出專屬的業務助手。如上圖所示,咱們能夠將報表查看、指令集成、知識圖譜查詢、查詢郵件等諸多服務集成到業務系統中,而且提供權限審覈的功能,從而打造一個專屬的業務助理。
一些行業預測認爲:
Gartner預測到2020年:50%的分析查詢會經過搜索、天然語言處理或語音生成,或自動生成。一線業務工做人員經過天然語言處理和會話分析,來進行分析和使用商業智能產品的使用率從35%提高到50%以上。
接下來詳細介紹聊天機器人建設的過程。
智能聊天機器人建設是有難度的,好比機器人的智能化核心開發須要必定的AI研發能力;機器人須要全套的模型封裝,以及數據管理、任務調度、權限控制等工程能力的支持等;各業務線均有普遍的需求,一個個實施起來將是很漫長的過程。
若是按照一條線一條線建設的方式,如圖所示,AI同事和平臺同事支持第一個業務時,沒有其餘業務線的需求進來,按照項目的支持可以快速響應需求,這時的體驗是很好的;而對於第二個業務來講,此時因爲AI同事和平臺同事正在支持第一個業務,第二個業務線的功能就會有所缺失,能夠看到圖中業務線B的機器人少了一條腿,這時就產生了等待;到第三條業務線,已經進入了需求排期階段,AI同事和平臺同事對該業務線的支持就頗有限了;一樣的,後續的業務線都將處於等待狀態,儘管業務方很生氣,可AI同事和平臺同事已經疲於奔命。
由此能夠看出這種煙囪式機器人研發的缺點:耗時長、成本高。
那麼如何才能高效地支持這些需求呢?
以中臺化思惟來建設智能聊天機器人平臺。經過平臺化的建設、複用化的思想,使得咱們的聊天機器人成爲聊天機器人制造工廠。
咱們在構建智能聊天機器人平臺的過程當中,將各個業務線的需求和能力都集成到平臺中,提供給不一樣業務線使用,各業務線都複用這些能力,而且提供數據權限的高度隔離。
最後達到機器人流水式生產,管理功能高度複用,業務用戶高速接入,迅速賦能所有領域。
智能聊天機器人平臺的設計考量包括如下幾個方面。
既然咱們用平臺化方式去建設,就必然面臨一些問題:平臺化的好處是能夠複用,事半功倍;缺點是難以兼容個性化。因此咱們在平臺建設過程當中,要同時考慮什麼樣的功能屬於平臺、什麼樣的功能屬於租戶、什麼樣的功能屬於公司,把公共的功能進行沉澱、把租戶的功能進行定製化,這樣才能既兼顧平臺化的事半功倍,又能知足個性化的需求。
上圖所示是智能機器人平臺的系統架構。
整個平臺是微服務架構,支持容器化,支持使用Conductor模型編排,用MQTT協議以解決APP端網絡不穩定的問題。
前文介紹了機器人平臺的背景、設計理念和技術架構,接下來介紹機器人平臺的核心原理和主要功能點。
智能聊天機器人最核心的部分是對話引擎,對話引擎包括:自動語音識別(ASR)、天然語言理解(NLU)、對話管理(DM)、天然語言生成(NLG) 和文本到語音合成(TTS)。
其中,天然語言理解(NLU)的目標是將文本轉換成語義表示,文本中的單詞語義並不重要,重要的是文本轉化成了語義信息。簡單來講,就是將人的語言轉化成機器能夠理解的結構化的完整的語義,讓機器理解人的語言。
咱們一般說的NLP天然語言處理實際上是一個大的集合,包含了NLU天然語言理解和NLG天然語言生成,而且包含了它生成上面的處理部分和下面的應用階段,因此NLU和NLG都是NLP的一個子集,它們不是平級的關係。
DM是對話管理系統的大腦,負責更新對話狀態。對話引擎的難點在NLU和DM。
總的來講,這些技術都是屬於天然語言處理技術(NLP,Natural Language Processing),本質上咱們須要使用NLP技術來解決聊天機器人的問題。
對於用戶的一個問題,須要將這個天然語言問題經過一個模型(這個模型是咱們用機器學習基於大量數據訓練和概括得出來的),轉換爲機器能理解的數據形式(咱們將這種數據形式稱之爲向量)。
NLP技術除了用於智能聊天機器人之外,還用在不少領域,例如:句法語義分析、信息抽取、文本挖掘、機器翻譯、信息檢索、對話系統等領域。
智能聊天機器人是由多個機器人組成,包括問答機器人、閒聊機器人、任務機器人等,人工後臺以及文檔庫之間協做完成任務,最終選擇最優答案返回給用戶。
如圖所示,用戶提一個問題過來:
若是這個問題機器人不能解答,就會轉入人工後臺,或轉到搜索引擎進入文檔的搜索檢索,最終將最優答案返回。
QA機器人的本質是:假設用戶提了一個問題Q,QA機器人須要從已有的QA數據庫中尋找最合適的QA對返回,QA機器人會進行QQ類似度計算和QA匹配度計算,經過綜合類似度與匹配度,找到最適合的一組QA對 (Qi, Ai),即最佳答案返回。
常見的網絡模型包括RNN和CNN模型。例如雙層編碼(Decoder)的長短時間記憶模型(LSTM)。這種模型在不少場景下都比較好用,網絡模型的主要缺點是須要必定數量的樣本。
在語料比較小的狀況下,將問題進行拆分,分爲兩個階段:
它的優勢是在語料比較小的狀況下效果不錯。
這裏以QQ匹配來介紹QA機器人原理。
QQ匹配包括幾個部分:句向量化、類似度計算、類似度排序。
句向量咱們是經過詞袋模型和同義詞擴展來表示的。
什麼是詞袋模型?詞袋模型就是忽略文本里的詞序、詞法、句法,只將它看作一個詞的集合,把它當成一個詞袋。
還引入了同義詞擴展。在實際的問題中,不一樣的詞可能存在不一樣的問法,但其語義相同,因此進行一些同義詞等價,這樣就造成了詞向量。向量的值是TF-IDF值,用於表示權重。
TF-IDF模型(term frequency–inverse document frequency,詞頻與逆向文件頻率)。TF-IDF是一種統計方法,用以評估某一字詞對於一個文件集或一個語料庫的重要程度。TF-IDF的主要思想是,若是某個詞或短語在一篇文章中出現的詞頻高,而且在其餘文章中不多出現,則認爲此詞或者短語具備很好的類別區分能力,適合用來分類。
TF-IDF有兩個值,一個是詞頻率,另外一個是IDF(inverse document frequency,逆向文件頻率)。如圖中的計算方式。
舉個例子,庫中10000篇文檔,10000篇提到「母牛」,其中10篇提到「產奶量」,好比一篇關於「母牛的產奶量」的文字,這篇文章有100個詞,「母牛」出現5次,「產奶量」出現2次)。
經過計算髮現,雖然「母牛」的詞頻率很高,但IDF值很低,最後「母牛」的TF-IDF很低,也就是說這個詞不具太大的標識度。而「產奶量」這個詞的詞頻率不高,但它的辨識度很高,最終它的TF-IDF也很高。
具體執行過程如圖所示,首先拿到一個語句,進行分詞、去停用詞、去重,獲得一個詞序列。而後遍歷每個詞進行TF-IDF計算,若是在同義詞表裏,就計算詞TF-IDF並求平均值;若是在詞庫中,就計算TF-IDF值;若是不在詞庫中,就直接忽略,最後造成詞對應的TF-IDF值,並將Value向量單元化。
接下來咱們要計算向量和向量之間的距離,這裏咱們採用餘弦距離。計算方式如圖所示。
當兩個詞向量的餘弦值接近1的時候,兩個詞向量類似,也就是兩個句子相關。不然就不相關。經過計算餘弦值來最終達到判斷句子的類似度。
上文介紹的QQ匹配是屬於一種基於檢索的聊天機器人,另外一種對應的分類是基於模型生成的表情機器人。
基於檢索的聊天機器人:
生成模型的聊天機器人:
目前的現狀是,在商業領域,工業級標準仍是會使用基於檢索的機器人,適合特定領域內、問題集合有限,還有一些變體,好比知識圖譜、基於KG的機器人、基於搜索引擎的機器人。而生成模型的機器人,是學術界研究的重點,在商業領域,它會做爲檢索式機器人的補充形式,二者結合使用,
閒聊機器人主要是進行客觀話題討論,用戶對聊天機器人進行一些情感表達,回答問候、情感和娛樂等信息。閒聊處理由兩個組件組成:
海量的閒聊語料,能夠從在線論壇、微博對話、甚至別的通用機器人爬取,雖然從各個地方爬取,也須要審覈,以知足用戶需求。
閒聊機器人的要求是:簡單閒聊、結果可控、快速開發。因此實現上咱們基於AIML構建閒聊機器人。
AIML是由Richard Wallace發明的一種語言。他設計了一個名爲 A.L.I.C.E.(Artificial Linguistics Internet Computer Entity 人工語言網計算機實體)的機器人,並得到了多項人工智能大獎。AIML是一種爲了匹配模式和肯定響應而進行規則定義的XML格式。
AIML的能力很靈活,如圖所示,能夠基於模板匹配、任意字符匹配、元素提取、一個問題多個答案、劃分主題等。
AIML來做爲知識載體的好處是靈活、人性化強。缺點是在知識的編寫方面門檻高,好比閒聊庫的擴充方面的問題等。
好在有現成的AIML編輯軟件,如:SimpleAIMLEditor,GaitoBotAIMLEditor等。
AIML語言的規範也在不斷升級,最新版本AIML2.0。
任務機器人(Task-Bot) 的關鍵技術是基於意圖識別與語義槽提取。
舉個例子,A說「幫我訂一個今天下午3點到4點的會議室吧?要大一點的。」機器人識別出來這是一個任務,而這個任務要完成必須三個語義槽:時間、地點、大小。
通過分析發現A的任務請求中缺少一個語義槽-地點,因而觸發機器人反問「請問您要預訂哪一個職場的會議室?」,A補充了地點後,機器人聯動會議預約系統,進行會議室預約,完成任務並反饋結果給A。
這個過程涉及了:意圖識別、關鍵參數提取、多輪對話&對話管理、配置化、對接外部系統。
以上圖的一個實際例子來看,這個例子是根據身份證號查詢歸屬地。
場景機器人能夠說是任務機器人更高級的版本,它是基於預置規則驅動完成場景任務。
上圖示例中,銷售人員G想查客戶李國強的信息,機器人給出相應信息後,根據預設的場景,觸發後臺配置的一個業務推薦流程,根據這個流程,銷售人員能夠得到適合李國強客戶的產品推薦、瞭解相關產品狀況、進行話術演練等,原本只是一個聊天過程,跳轉到特定的場景以及業務相關的聯動,這就是場景機器人。場景機器人的場景和相關業務跳轉都是能夠配置的,這樣能夠達到動態化地支持不一樣的場景。
場景機器人與場景綁定、結合場景相關話術和跳轉規則,能夠作:客戶畫像查詢、產品信息查看、場景演練、面見話術等,還能夠進行交叉銷售、客戶關聯查詢。
KG機器人,即知識圖譜機器人,本質上是一種語義網絡,其結點表明實體或者概念,邊表明實體、概念之間的各類語義關係。KG機器人是基於知識圖譜推理給出結果,也是基於檢索型機器人的一種。
相較於純文本,知識圖譜在問答系統中具備如下優點。
這些優點都促使咱們在構建智能聊天機器人平臺時使用知識圖譜來做爲問答系統的知識來源。
舉個例子,這是保險的知識圖譜,包含了:查詢實體屬性-平安境內旅行險一個月多少錢?查詢關係以及屬性-能保骨折,且承保時間在5年以上的保險有哪些?查詢簡單關係-平安境內旅行險能保意外骨折嗎?查詢複雜關係-想買一個能保骨折,而且可以在海口市的三甲醫院報銷的保險。
這些本質上都是在進行圖查詢,查詢實體的屬性,查詢實體和實體之間的關係等。
知識圖譜機器人構建過程當中:
當用戶問問題時候,把問句轉化成圖計算,機器人經過知識圖譜進行查詢計算,並轉化爲答案反饋給用戶。
除了上述各類機器人以外,聊天機器人平臺還涉及到模型編排和模型管理的部分。好比有的業務只須要QA機器人,這時經過預處理,調用QA機器人,通過角色權限過濾就能夠提供服務了。有的場景可能須要多種機器人進行合做,這就涉及到路由/羣發,羣發機器人的結果還要進行融合合併。
模型編排,將不一樣的模型進行組合,以可視化的方式對調用的模型順序進行編排,支持拖拽式配置。
模型自己是須要服務化的。咱們的實際模型自己是一些python服務,咱們將這些python服務進行封裝,進行服務的統一管理,這樣的話就能夠對模型定義統一的接口,還能夠進行自動化的更新,好比經過定時模型訓練去更新此模型,其餘模型不受影響,如上圖所示的模型手動更新和自動更新。同時咱們能夠進行單元測試和鏈路測試。
目前平臺已可以支持:
聊天機器人平臺主要功能包括如下幾個方面。
機器人預置了web交互頁面,支持機器人所有的功能。包括對話、留言反饋、轉人工、查看歷史消息;可直接嵌入PC端和APP端業務系統等。
在上圖的例子中能夠看到,前面部分是咱們的常見問題列表,用戶問了一個問題,而後找到一個匹配該問題的答案。若是用戶給出的問題比較簡單,如上圖,只給出「宜人貸」,就沒辦法命中一個獨立的問題,這時除了匹配答案之外,還會給出一些與該問題相關聯的問題,這種咱們稱之爲關聯問題。也能夠轉到搜索引擎,經過搜素引擎的相關問題。
實際上,對於檢索模型的聊天機器人而言,當FAQ中沒有合適的答案,咱們返回的是FAQ中與問句最相近問句-答案對中的問句,而不是答案,這樣能夠從用戶提問中獲得更多信息,以便返回更真實的答案。咱們在實踐中發現,用戶經過這樣的關聯,只須要幾回點擊就能找到真正想要的答案,其滿意度會獲得提高。
這是機器人的知識庫,知識庫包含了一些分類信息,支持相應的數據角色、文檔的數據顏色格式,還包含瀏覽編輯、全文檢索、問題分類、批量上傳、語料生成、水印生成等功能。
這是機器人的人工後臺。人工後臺上線後,用戶能夠跟人工後臺的客服人員聊天,在這個過程當中也能夠上傳圖片。與機器人問答不一樣的是,機器人模式中用戶只能發文字,而與客服人員聊天,能夠上傳文檔、插入表情、請求評價等。在這裏還能夠作快捷回覆、查看知識庫、文檔庫、客戶自己的信息,還有一些智能回答。
這是客服工做臺的功能,能夠從隊列裏調出相應的客戶進行會話,解決不了的問題能夠轉交給別的工做臺的客服解答。
接着來看會話管理。上圖左邊是這我的對應的歷史聊天信息,咱們能夠檢索並定位到他認爲回答很差的問題,進行在線快速補充添加新問題。每個問題的評分都會顯示,既能幫助算法同事,也能幫助運營同事進行在線信息維護。
機器人平臺還提供數據統計和分析功能,這一功能是基於Davinci數據可視化工具完成的,能夠自定義數據指標,好比機器人服務時長、服務執行度等。還能夠進行報表統計:會話統計、文檔QA統計,人工後臺服務分析、用戶提問句雲、活躍度排名、用戶積分、用戶行爲覆蓋、使用明細。
機器人平臺還提供通用化模型運行託管平臺,它是一個高可用運行架構,能夠進行模型封裝、發佈、啓停、更新管理,還包括自動數據更新機制、統一服務訪問接口等。
機器人平臺提供多租戶和角色權限管理的功能,而且在公司裏提供用戶的自動導入,經過配置相應的角色和權限,自動導入成機器人的用戶角色權限。這樣一來,就不用維護用戶自己了,能夠跟不一樣的業務系統直接對接。
機器人平臺的其餘功能,諸如任務配置、閒聊配置、積分管理、對接外部系統等功能此處不一一展開。
如圖所示爲智能聊天機器人平臺的發展階段,咱們已經徹底了前面階段的機器人功能建設,包括問答、人工後臺等。目前咱們處於第三階段向第四階段演進的過程,最終咱們但願達到業務領域系統性CUI整合,即經過機器人會話,以場景式機器人的方式展現給客戶,成爲機器人助理。
智能客服機器人的初衷是解決客服管理部的痛點。
宜信有不少線下門店,這些門店中的銷售人員有大量的問題,涉及到政策、法規、流程、管理等衆多方面,這些問題都會經過內部溝通工具蜜蜂或郵件集中到客服管理部來解答。
引入智能客服機器人之後,80%的問題被機器人攔截,剩下的20%轉到人工後臺,減輕了客服管理人員的壓力。
智能客服機器人目前服務於全部一線的客服同事,成爲客服管理重要的平常工具。客服人員只須要經過手機就能夠操做,實現了運營管理智能化從0到1的過程,幫助運營人員減輕壓力,提高運營效率。
財富銷售過程當中涉及到不少產品(基金、保險等),須要瞭解產品知識、政策法規、銷售話術等。同事但願能有一個知識型的助手,協助解答在銷售過程當中遇到的諸多知識盲點,提升專業度。
咱們計劃使用聊天機器人小助手與現有手機app結合,實現產品、客戶、知識一站式服務。
如上圖所示,財富智能助手並非直接調用機器人平臺,而是經過API方式調用機器人平臺,而後去詢問各類支持銷售的問題。
目前財富智能助手機器人覆蓋全部一線銷售和業務支持人員,解決投前、投中、投後、銷售政策等問題,提升了業務專業度、響應速度,提高業務拓展效率。
第三個場景是保險智能機器人。微信用戶存在大量相關問題諮詢,使用人員來回答的話疲於應付,回答也不專業,人力成本很高,但願經過機器人對售前類問題提供諮詢服務,代替人工,完成售前信息交互,大幅減小人員成本,提升回答準確的和精準度。
如圖所示,保險智能機器人基於第三方知識庫提供查詢:包括保險類術語查詢、疾病庫查詢、險種查詢、醫院庫等保險知識大全;基於知識圖譜和推理的1~3度內查詢等,例如:條款明細請問這款產品有猶豫期嗎?我孩子5歲能夠買這款產品嗎?重疾險都包那些疾病?還能夠作常見售前售後意圖判斷、保險費用預計算。
最後一個場景是AIOps智能運維機器人,AIOps是一個很大的話題,涉及到海量數據的存儲、分析和處理。數據包括:歷史數據、流數據、日誌數據、時序數據、異常數據等。整個系統由許多小工具集成成爲一個大系統。AIOps還包含自動模式發現和預測、異常檢查、根因分析等須要模型支持等方面。
這裏咱們主要關注入口:文本輸入。
在平常運維中,當出現異常時,運維同事收到手機、郵件或短信報警,但願經過手機APP,以天然語言方式查看得到當前系統狀態、隨時隨地瞭解當前系統,甚至能夠經過運維執行命令來解除故障。
好比能夠經過手機APP調用任務機器人去查詢後臺系統中網絡佔用的一個時序圖,把這個圖以報表的方式返回到前端。使用機器人能夠有效下降信息過載問題,調用相關接口,直接找到目前最重要的問題並返回。當發現系統出現故障時,能夠經過機器人發送命令,重啓服務解除故障。
Q1:語音外呼機器人如何用數據驅動作話術質量評估?好比:要定位哪些話術節點高頻發生客戶無迴應、打斷或投訴等,但機器人語音播報裏是含多個變量參數的,並且文本會話存儲是按ASR識別音轉文的,和配置機器人時的固定話術格式不同,這樣一來致使句子量級很是龐大,這種如何統計呢?
A:語音外呼機器人實際上是一個統稱,通常來講會具體到一個領域,而且和特定場景相結合。好比:電銷促銷機器人、售後快遞送貨機器人、語音催收機器人等。
以售後快遞送貨機器人爲例,機器人經過語音電話通知客戶,將快遞送到家或者指定快遞櫃等。
在這種特定場景裏,主要是要進行話術編排,費時間的也是在話術編排上,須要充分結合業務場景特色,由機器人向客戶發問,對客戶可能回答的方式進行歸類(與具體業務方一塊兒根據現有人工話術可能的回答進行分類)和統計,這樣就方便對無迴應、投訴等話術進行評估了。
最終用戶的回答都會被引導到有限的話術邏輯中,從而達到電話外呼的目的。句子量級龐大,但話術是有限的,不會特別巨大(咱們目前場景中的話術都是和業務方一塊兒合做總結的)。
另外,這種場景機器人的配置頁面與分享中提到的任務機器人還不徹底同樣,有其單獨的話術編排配置。
Q2:老師提到使用similarity的chatbot,請問這樣的chatbot只是作intent識別嗎,對於slots的填充是怎樣處理的呢?
A:基於類似度的模型用於問答和閒聊機器人。任務機器人的處理基於專門的意圖識別模型和實體識別模型來作。
意圖識別模型,因爲咱們要作的是通用化、自助化、彈性化,因此設計了一個輕量級的自訓練意圖識別框架,基於用戶提出的少許語料,經過句子成分分析提取特徵,並對特徵進行分析而成,其中主要涉及到語言學知識,少許統計學習方法,優勢是自訓練需求算力不多、解釋性強、準確率高、用戶徹底能夠隨意添加各種新的任務。
槽值提取基於NER和意圖識別中的句子成分分析開展。NER自帶通用的時間、地點、人名、組織等實體識別,通用實體因爲語料充足,其識別利用了ML、DNN等模型。此外考慮到專業領域裏的專有槽值實體(例如合同號、公司內部部門名稱、員工編號等等),咱們容許用戶自行配置列表實體、正則實體等。
Q3:第二種使用模型對intent和slots識別,請問裏面的slots識別是character-level的仍是word-level的?若是是word-level的,怎樣處理cut-word不許帶來的問題?
A:槽值中通用實體的識別基於word-level,專有的實體識別比較複雜,常見的情景中若是是列表實體,那麼咱們在分詞階段已經將列表實體名稱加入分詞表;正則實體直接作正則匹配。
之因此採用這種NER方式,主要就是下降用戶每次新建任務、實體後模型框架自訓練的開銷,使其能夠迅速動態加載新的意圖識別和槽值提取task。
Q4:第一個機器人從開發到上線用了六個月,機器人平臺開發用了多久呢?
A:由於是按照平臺化的思惟去建設,實際上第一個機器人開發的時候,機器人的模型部分和機器人平臺是同步進行的,團隊成員包括算法同事和平臺研發同事,以兩週一個小版本的速度,在與第一個客戶一直保持密切交流的狀況下,隨時改善用戶體驗,總共花了6個月的時間,初版的機器人模型和平臺同時完成。
初版主要包含QA機器人、QA庫管理、文檔庫管理、會話管理、模型自動更新等主要功能。閒聊機器人、任務機器人等都是後面版本迭代增長的。
其實機器人模型、QA庫不斷完善、模型自動更新、問題反饋、統計報表等都是一個統一的總體。單純只重視任何一方面,例如只重視算法模型,忽略特定業務場景的語料,忽略運營的支持,都會致使機器人很差用,體驗差。在實際運營中,算法、平臺和運營都須要造成閉環,進行有效溝通。這樣才能把平臺和機器人建設得更好用。
來源:宜信技術學院