敏捷AI｜NLP技術在宜信業務中的實踐「構建用戶畫像篇」

時間 2019-12-05

原文原文鏈接

導讀：

前面兩篇咱們介紹了NLP技術在宜信應用的背景《敏捷AI | NLP技術在宜信業務中的實踐【背景篇】》，以及應用場景之一《敏捷AI | NLP技術在宜信業務中的實踐【智能聊天機器人篇】》。本篇爲另外一個場景，也就是在業務中如何構建客戶畫像，敬請收看~算法

做者簡介

井玉欣：畢業於北京大學信息科學技術學院，獲博士學位，研究方向包括計算機軟件與理論、邏輯推理等，目前就任於宜信技術研發中心，從事人工智能、機器學習、天然語言處理以及知識工程等方面的研究。網絡

高級場景之構建客戶畫像

在許多企業中，天天業務人員和客戶的溝通都會產生大量記錄，這些記錄可能包括了客服的溝通數據（通話記錄、通話小結），也可能包括了各式各樣的報告數據（陪訪報告、徵信報告等）（見圖1）。架構

圖1 業務人員與客戶產生溝通記錄dom

前者可能口語會多一些，後者則主要是書面用語。但二者之間有一個共同的特色，就是其中都蘊含着豐富的客戶信息。想要把這些信息提取出來，咱們就須要利用到（NLP）技術。機器學習

圖2爲一段客戶陪訪報告的節選，觀察其文本特徵，發現有許多業務所關注的信息，好比職業方面，客戶是「大學教授」；在可投資產方面，理財金額有「100萬」，投資類型是「銀行理財」，對公司的態度是「不瞭解」等。學習

圖2 客戶陪訪報告示例大數據

因此咱們徹底能夠經過NLP分析文本，對其中的客戶特徵進行標籤化提取，最終利用獲得的標籤構建出客戶畫像。這樣作的好處不少，好比方便咱們的業務人員隨時發現關鍵問題，便於跟進；自動化處理，提升工做效率。根據挖掘出的信息構建出客戶標籤畫像以後，就能夠方便地盤點特定時間範圍內的需求特色，爲新產品設置提供係數參考，或者補充、驗證結構化字段內容。人工智能

整體的實施路線如圖3所示，先經過業務分析來定義業務關注的標籤庫，而後針對定義出來的標籤訓練相應的提取模型，最後利用模型對數據進行分析，獲得一系列客戶標籤，再對其進行彙總，最終造成客戶畫像。spa

圖3 整體實施路線設計

整體的路線是這樣的，但具體的實施過程當中咱們也有一些細節須要關注。經過對以前的數據進行分析，咱們發現了一些特徵，好比文本之中信息高度集中，信息表述一般以短句爲單位，可是單一短句語義存在模糊性，還須要結合必定的上下文對其進行分析。因此咱們須要對複雜句進行適當的切割，肯定合適的數據粒度，同時配合一個適當大小的短句滑動窗口來捕獲相關的上下文語義。

此外對於內部的業務文原本說，其內容涉及大量產品的專有實體名稱和術語，以及較多的數字。針對這種狀況，咱們創建了專門的詞庫和實體庫，對相應的實體名稱和術語進行準確的切割和識別。對於數字的處理，咱們前後比較字向量、標識符替換、規則識別+後處理等等技術方案，而且選擇了其中效果最好的方法。

固然咱們也面臨着廣泛存在的標註語料不足的問題，所以在這個項目中，咱們側重於研究怎麼在小樣本條件下進行Few-shot learning。

實際中，在大多數專業領域AI項目實施過程當中，都存在着標註數據不足的狀況，因此針對小樣本進行學習的Few-shot learning也愈來愈凸顯其重要性。Few-shot learning包括不少種技術，有常見的遷移學習+fine-tuning技術，典型的如Bert；也有基於半監督訓練的一些技術，如基於類似性度量的一些神經網絡模型，基於最近鄰算法的樣本標註擴散這些技術等；還有meta learning的相關技術，例如OpenAI在ICLR 2018上的best paper；甚至還有一些圖網絡的相關技術。

在以上種種技術當中，比較適合工程化的、比較容易實施的仍是基於遷移學習的方法。在咱們的項目中，發現遷移學習，也就是基於預訓練模型，遷移到目標訓練任務上，再加上半監督學習的標註輔助，能夠比較好的知足咱們的需求。

下面介紹一下咱們的算法流程：

先對複雜句進行清洗與切割；以後能夠選擇性的加入一些過濾規則，快速地去除那些比較明顯的噪音數據；而後將數據流入到標籤提取模型之中，獲得具體的標籤；最後在畫像構建階段對獲得的全部標籤進行去重、消歧，造成最終的客戶畫像。

具體到算法模型，咱們也前後比較許多方法，本質上咱們認爲標籤識別模型是一個短文本分類算法，咱們嘗試了基於統計的方法（SVM, Random Forest, XgBoost），也嘗試了基於神經網絡的模型（FastText,Text CNN/RNN/RCNN, HAN），最終咱們選擇了HAN模型，也就是層次注意網絡（Hierarchical Attention Network）模型，經過在詞一級和句一級分別進行RNN和Attention計算，最終獲得一個合理的文本向量表徵，用於最後的分類，整個過程如圖4所示。

圖4 HAN模型架構

圖5是本實例的整體處理流程，通過數據預處理以後，文本被並行地分配到各個業務關注標籤提取模型之中，輸出各個業務標籤，最終彙總到客戶畫像構建模塊，在此進行去重、消解歧義和矛盾，最後獲得客戶的畫像。

圖5 實例處理整體流程

另外咱們結合公司的敏捷實時數據平臺設計了一個相應的實時AI解決方案，如圖6所示，這裏用到了咱們團隊開源的一些技術，包括DBus（數據總線平臺），Wormhole（流式處理平臺），Moonbox（計算服務平臺）以及Davinci（可視應用平臺），這四個平臺構成了敏捷大數據平臺棧。

在這個方案裏，咱們經過DBus來採集各種數據存儲中的天然語言數據，通過一些可選的技術（如ASR等）獲得相應的文本；再經過Wormhole來進行實時的流式處理，標籤模型在Wormhole的實時數據流上運行，對數據流中的文本自動提取相應的標籤，再由Wormhole輸出到指定的數據存儲中；以後由Moonbox對標籤進行後續的彙總處理，先從存儲介質之上把以前計算獲得的標籤提取出來，使用畫像模型對畫像進行構建，輸出到如Redis之類的存儲介質之中，最後推送給業務系統供其使用。這就是咱們實現的一個實時用戶畫像處理流程。

圖6

此外，在圖6下方的數據流分支裏，咱們經過在Wormhole上流轉的生產數據流進行一個選擇性抽樣，以後一樣利用標籤模型和畫像模型，計算出客戶畫像，此後將原始數據、標籤數據和客戶畫像經過Davinci展現給咱們的模型維護人員，用於評估檢查模型的運行狀況，這樣就實現了一個實時的模型效果監控系統。綜合這二者，咱們就獲得了一個實時的、基於文本分析的畫像構建系統。

總結

隨着各企業實體對天然語言數據愈發關注，NLP+AI技術在各領域都成了很是重要、核心的基礎技術服務。領域知識與NLP技術的結合帶來了新的技術產品，創造出了新的商業價值，好比咱們目前經常使用的一些產品：Siri、小愛同窗等等，這種Conversational UI帶來的不只是一種全新的交互模式，更是開闢了一個新的產品領域。

在數據方面，雖然天然語言的數據存量很大，但目前來看不管是通用領域仍是專業領域，通過加工整理的高質量天然語言語料數據資源仍是比較缺少，所以其具備很是高的價值。領域語料的積累能夠極大提高AI產品的效果，在必定程度上幫助企業造成新的數據壁壘、技術壁壘。

在NLP的算法方面，就將來一段時間來看，如前文所述，面對小語料任務的Few-shot Learning會愈來愈受關注，尤爲是以Bert爲表明的遷移學習技術，將給如今的一些NLP任務帶來一場革命。此外還有針對NLP語料的數據加強技術，咱們知道在圖像領域數據加強技術已經比較成熟，是一種常見的數據處理方式，可是在NLP領域數據加強技術的發展還不夠成熟，若是能在這方面有所突破的話，相信會對各種NLP任務都有很大幫助。

NLP技術的發展還須要業界各企業、各位算法與工程專家的共同努力，相信將來咱們可以更準確、更快速、更方便地理解各領域的天然語言數據。

做者：井玉欣宜信技術學院