敏捷AI | NLP技術在宜信業務中的實踐【構建用戶畫像篇】

在業務中如何運用NLP技術構建客戶畫像。算法

高級場景之構建客戶畫像

在許多企業中,天天業務人員和客戶的溝通都會產生大量記錄,這些記錄可能包括了客服的溝通數據(通話記錄、通話小結),也可能包括了各式各樣的報告數據(陪訪報告、徵信報告等)(見圖1)。網絡

圖1 業務人員與客戶產生溝通記錄架構

前者可能口語會多一些,後者則主要是書面用語。但二者之間有一個共同的特色,就是其中都蘊含着豐富的客戶信息。想要把這些信息提取出來,咱們就須要利用到(NLP)技術。dom

圖2爲一段客戶陪訪報告的節選,觀察其文本特徵,發現有許多業務所關注的信息,好比職業方面,客戶是「大學教授」;在可投資產方面,理財金額有「100萬」,投資類型是「銀行理財」,對公司的態度是「不瞭解」等。學習

圖2 客戶陪訪報告示例大數據

因此咱們徹底能夠經過NLP分析文本,對其中的客戶特徵進行標籤化提取,最終利用獲得的標籤構建出客戶畫像。這樣作的好處不少,好比方便咱們的業務人員隨時發現關鍵問題,便於跟進;自動化處理,提升工做效率。根據挖掘出的信息構建出客戶標籤畫像以後,就能夠方便地盤點特定時間範圍內的需求特色,爲新產品設置提供係數參考,或者補充、驗證結構化字段內容。設計

整體的實施路線如圖3所示,先經過業務分析來定義業務關注的標籤庫,而後針對定義出來的標籤訓練相應的提取模型,最後利用模型對數據進行分析,獲得一系列客戶標籤,再對其進行彙總,最終造成客戶畫像。3d

圖3 整體實施路線rest

整體的路線是這樣的,但具體的實施過程當中咱們也有一些細節須要關注。經過對以前的數據進行分析,咱們發現了一些特徵,好比文本之中信息高度集中,信息表述一般以短句爲單位,可是單一短句語義存在模糊性,還須要結合必定的上下文對其進行分析。因此咱們須要對複雜句進行適當的切割,肯定合適的數據粒度,同時配合一個適當大小的短句滑動窗口來捕獲相關的上下文語義。orm

此外對於內部的業務文原本說,其內容涉及大量產品的專有實體名稱和術語,以及較多的數字。針對這種狀況,咱們創建了專門的詞庫和實體庫,對相應的實體名稱和術語進行準確的切割和識別。對於數字的處理,咱們前後比較字向量、標識符替換、規則識別+後處理等等技術方案,而且選擇了其中效果最好的方法。

固然咱們也面臨着廣泛存在的標註語料不足的問題,所以在這個項目中,咱們側重於研究怎麼在小樣本條件下進行Few-shot learning。

實際中,在大多數專業領域AI項目實施過程當中,都存在着標註數據不足的狀況,因此針對小樣本進行學習的Few-shot learning也愈來愈凸顯其重要性。Few-shot learning包括不少種技術,有常見的遷移學習+fine-tuning技術,典型的如Bert;也有基於半監督訓練的一些技術,如基於類似性度量的一些神經網絡模型,基於最近鄰算法的樣本標註擴散這些技術等;還有meta learning的相關技術,例如OpenAI在ICLR 2018上的best paper;甚至還有一些圖網絡的相關技術。

在以上種種技術當中,比較適合工程化的、比較容易實施的仍是基於遷移學習的方法。在咱們的項目中,發現遷移學習,也就是基於預訓練模型,遷移到目標訓練任務上,再加上半監督學習的標註輔助,能夠比較好的知足咱們的需求。

下面介紹一下咱們的算法流程:先對複雜句進行清洗與切割;以後能夠選擇性的加入一些過濾規則,快速地去除那些比較明顯的噪音數據;而後將數據流入到標籤提取模型之中,獲得具體的標籤;最後在畫像構建階段對獲得的全部標籤進行去重、消歧,造成最終的客戶畫像。

具體到算法模型,咱們也前後比較許多方法,本質上咱們認爲標籤識別模型是一個短文本分類算法,咱們嘗試了基於統計的方法(SVM, Random Forest, XgBoost),也嘗試了基於神經網絡的模型(FastText,Text CNN/RNN/RCNN, HAN),最終咱們選擇了HAN模型,也就是層次注意網絡(Hierarchical Attention Network)模型,經過在詞一級和句一級分別進行RNN和Attention計算,最終獲得一個合理的文本向量表徵,用於最後的分類,整個過程如圖4所示。

圖4 HAN模型架構

圖5是本實例的整體處理流程,通過數據預處理以後,文本被並行地分配到各個業務關注標籤提取模型之中,輸出各個業務標籤,最終彙總到客戶畫像構建模塊,在此進行去重、消解歧義和矛盾,最後獲得客戶的畫像。

圖5 實例處理整體流程

另外咱們結合公司的敏捷實時數據平臺設計了一個相應的實時AI解決方案,如圖6所示,這裏用到了咱們團隊開源的一些技術,包括DBus(數據總線平臺),Wormhole(流式處理平臺),Moonbox(計算服務平臺)以及Davinci(可視應用平臺),這四個平臺構成了敏捷大數據平臺棧。

在這個方案裏,咱們經過DBus來採集各種數據存儲中的天然語言數據,通過一些可選的技術(如ASR等)獲得相應的文本;再經過Wormhole來進行實時的流式處理,標籤模型在Wormhole的實時數據流上運行,對數據流中的文本自動提取相應的標籤,再由Wormhole輸出到指定的數據存儲中;以後由Moonbox對標籤進行後續的彙總處理,先從存儲介質之上把以前計算獲得的標籤提取出來,使用畫像模型對畫像進行構建,輸出到如Redis之類的存儲介質之中,最後推送給業務系統供其使用。這就是咱們實現的一個實時用戶畫像處理流程。

圖6

此外,在圖6下方的數據流分支裏,咱們經過在Wormhole上流轉的生產數據流進行一個選擇性抽樣,以後一樣利用標籤模型和畫像模型,計算出客戶畫像,此後將原始數據、標籤數據和客戶畫像經過Davinci展現給咱們的模型維護人員,用於評估檢查模型的運行狀況,這樣就實現了一個實時的模型效果監控系統。綜合這二者,咱們就獲得了一個實時的、基於文本分析的畫像構建系統。

總結

隨着各企業實體對天然語言數據愈發關注,NLP+AI技術在各領域都成了很是重要、核心的基礎技術服務。領域知識與NLP技術的結合帶來了新的技術產品,創造出了新的商業價值,好比咱們目前經常使用的一些產品:Siri、小愛同窗等等,這種Conversational UI帶來的不只是一種全新的交互模式,更是開闢了一個新的產品領域。

在數據方面,雖然天然語言的數據存量很大,但目前來看不管是通用領域仍是專業領域,通過加工整理的高質量天然語言語料數據資源仍是比較缺少,所以其具備很是高的價值。領域語料的積累能夠極大提高AI產品的效果,在必定程度上幫助企業造成新的數據壁壘、技術壁壘。

在NLP的算法方面,就將來一段時間來看,如前文所述,面對小語料任務的Few-shot Learning會愈來愈受關注,尤爲是以Bert爲表明的遷移學習技術,將給如今的一些NLP任務帶來一場革命。此外還有針對NLP語料的數據加強技術,咱們知道在圖像領域數據加強技術已經比較成熟,是一種常見的數據處理方式,可是在NLP領域數據加強技術的發展還不夠成熟,若是能在這方面有所突破的話,相信會對各種NLP任務都有很大幫助。

NLP技術的發展還須要業界各企業、各位算法與工程專家的共同努力,相信將來咱們可以更準確、更快速、更方便地理解各領域的天然語言數據。

做者:井玉欣

相關文章
相關標籤/搜索