敏捷AI | NLP技術在宜信業務中的實踐【背景篇】

文章圍繞基於機器學習的NLP技術在宜信內部各業務領域的應用實踐展開,分享這一過程當中的相關經驗,包括智能機器人在業務支持、客戶服務中的探索,基於文本語義分析的用戶畫像構建,以及NLP算法服務平臺化實施思路等。本文爲背景篇,敬請你們閱讀~算法

做者:井玉欣。畢業於北京大學信息科學技術學院,獲博士學位,研究方向包括計算機軟件與理論、邏輯推理等,目前就任於宜信技術研發中心,從事人工智能、機器學習、天然語言處理以及知識工程等方面的研究。安全

 

 

業務背景網絡

 

宜信公司於2006年成立於北京,通過12年的發展,目前圍繞着普惠和財富兩大業務板塊,陸續推出了許多相關產品,如宜人貸、宜人財富、致誠信用、博城保險等等。架構

實際上在這些產品的背後,AI技術已普遍地應用其相關的各條業務線中。機器學習

從宜信所處的金融領域的各個子領域來劃分,能夠分爲智能交易、智能信貸、金融信息、金融安全、個性化服務這五個方面,每一個方面都有相關人工技術的輔助。微服務

例如智能交易領域,有智能投研、量化分析、自動/輔助交易等技術;智能信貸領域,有可以進行身份識別、用戶畫像以及智能風控等相關的人工智能產品;金融信息領域,咱們會進行知識工程、圖譜分析、智能問答等;金融安全領域,要進行反欺詐分析;而個性化服務領域就更普遍了,咱們有行爲分析、智能營銷、推薦與匹配以及智能理財顧問等等一系列比較成熟的AI產品。學習

讓咱們繼續向下探究,在這些AI產品的背後,會發現都有一些NLP(Natural Language Processing, 天然語言處理)技術的影子。好比在智能交易領域,咱們須要理解至關多的投研報告,這裏就會用到報告理解方面的NLP技術;智能信貸領域,可能須要進行風控報告的生成和分析,也要用到相關的NLP技術;知識工程領域,要對金融信息進行知識提取,或者爲了構建知識圖譜進行關係提取、事件提取等;智能營銷和智能理財顧問中,則須要智能聊天以及話術提取的處理技術。人工智能

能夠說NLP技術貫穿了各個領域的AI產品,其直接緣由就是由於咱們的業務中存在着大量的天然語言數據,如電銷通話數據、客戶分析小結、客服溝通內容、內部交流信息以及其餘各類文本報告等等,這些數據都是使用天然語言來進行存儲的;並且用天然語言文本存儲這些數據,還有着其餘形式數據沒法比擬的一些優勢,如圖1所示,天然語言數據來源豐富,信息表述多種多樣,保留信息完整,而且符合用戶習慣等等。3d

1.jpg

圖1 天然語言的特色orm

 

可是,咱們須要注意到相較於這些優勢,天然語言數據也有着數據非結構化不易處理、存在可能的歧義性、語法不規則性、未知語言現象等缺點。另外,結合宜信所處的業務領域,這些天然語言又有一些獨特的特色:更強的詞彙專業性、更普遍的數據來源、多樣的數據形式(錄音數據,文字對話數據以及短/長文本的報告、小結等)、較大的數據量以及分佈的不均衡性。

這些缺點使得天然語言數據並不容易處理,NLP技術實施起來難度也不小,可是爲何天然語言數據仍然愈來愈獲得關注,NLP技術的實施也愈來愈普遍了呢?

實際上,近幾年來,各企業、組織開始在業務中也愈來愈關注大量非結構化數據中蘊含的高價值信息。咱們知道,結構化數據比較好處理,可是通過多年的發展,可以從中挖掘出的信息愈來愈有限;而咱們平時接觸到的非結構化數據,其數量級要比結構化數據多出好幾倍,裏面蘊含着很是多的高價值信息。

典型的非結構化數據包括圖片、視頻等,另外很重要的一部分就是天然語言文本數據。咱們能夠從這些天然語言文本中挖掘出大量有價值的內容,例如在前面所述的宜信天然語言數據中咱們就能夠獲得客戶信息、產品數據、輿論傾向、策略反饋等。

此外,天然語言處理給咱們帶來了新的會話交互方式,更確切的說,基於天然語言理解和天然語言生成所造成的對話式用戶交互更加天然、高效、吸引人,更加符合用戶習慣,這也就是咱們所說的Conversational UI,新的交互方式愈來愈多的應用在各個領域。好比咱們接觸到的智能音箱小愛同窗,她的表現就很是驚豔。

因此,愈來愈多的業務開始關注非結構化數據和天然語言數據這些高數量級的有價值信息,它具備的一些特色,提供的一些交互方式,帶來了更多擴展的形式,這就致使了天然語言數據愈來愈重要,NLP技術愈來愈必要。

咱們給NLP技術作一個簡單的定位,即NLP技術承擔了領域內天然語言數據的分類、提取、轉換、生成任務,是業務領域內重要、基礎的技術服務之一。

 

NLP技術在宜信

 

宜信擁有豐富的業務和產品線,這些產品線產生了大量的人工智能賦能需求。算法團隊成立以來,一直面臨着不小的項目壓力。在整個項目的驅動過程當中,團隊也逐漸獲得成長,結合金融領域的相關業務知識,磨練出從規則分析到統計學算法,再到更加複雜的神經網絡,以及NLP領域專業技術等一系列技能。

2.jpg

圖2 相關算法技術棧

 

具體來說,咱們從能夠承擔基本的處理任務(利用一些現有的規則分析、基本算法模型所進行的詞性分析、句法分析)發展到能夠利用相對複雜的神經網絡模型對外提供文本分類、文本聚類、信息抽取等等一些模型服務,再到目前實施的智能聊天機器人(Chatbot)、用戶畫像、知識工程等高級場景,技術也隨之轉向了transformer、GAN、強化學習、深度學習網絡等能力愈來愈強、結構愈來愈複雜的模型。這一過程能夠看出來技術在不斷的進步。

除了技術在不斷的發展之外,咱們也積攢了一批有價值的語料。在業務環節方面,咱們積攢瞭如電銷數據、客服數據、陪訪數據、催收數據等語料;在業務領域方面,咱們積攢了借貸(車、房、消費),理財(投資、保險、生活、傳承、公益)等方面的語料;而在數據形式方面,咱們收集了對話類(電話、文字溝通訊息)、文章類(小結、新聞、報告)形式的語料。

這是一批比較有價值的語料信息,最終造成了公司內部的專業語料數據,包括公司的產品清單、業務術語表、業務實體表乃至財富領域的財富產品知識圖譜等等。咱們最終的目的是通過必定的擴充、抽象和加工以後,但願可以造成金融領域的、高價值的、專業數據集,來對外進行賦能輸出。好比咱們能夠輸出金融術語表、金融術語同義詞林、金融領域相關本體以及各個子領域的知識庫等。

此外,咱們在服務模式上也有一個演化的過程。早期咱們是以項目爲驅動的服務模式,這個過程當中存在着一些廣泛的痛點:

  • 產品衆多、業務需求繁雜;

  • 不一樣的業務相結合,需求不斷髮生變化;

  • 時效性要求,越快越好,上線稍晚就會影響到需求方;

  • 研發團隊人力有限,偶爾還要兼顧環境部署、上線模型監控與維護等工做,整個過程當中研發團隊忙、壓力大,沒時間對模型進行有效調優。

那麼如何解決這些痛點呢?反思事後,咱們走出了重要的一步,即服務的平臺化。經過構建一個統一的NLP模型平臺,對外提供一個統一的NLP服務,其優勢是:

  • 下降成本,提升效率;

  • 平臺上的模型能夠靈活組合,快速響應客戶的需求;

  • 能夠統一相關標準,方便對模型進行集中管理。

經過平臺化服務,使咱們的工做擺脫了原有的粗放式服務模式,提升了AI團隊的輸出能力。

3.jpg

圖3 服務的平臺化

圖3爲咱們平臺的邏輯功能視圖,自底向上分爲資源層、預處理層、模型層及場景層。資源層主要包括一系列的語料、標籤、預訓練模型等資源;預處理層包含一些經常使用的NLP技術,如分詞分句、詞性分析、句法分析、主題分析、命名實體識別等;模型層則包括一些能夠對外提供服務的算法模型,例如文本的聚類、分類、生成、複述等模型,情感分析模型等;最高的場景層則針對一些高級的、能夠造成必定閉環能力的複雜場景進行解決方案的構建,例如對於智能機器人、用戶畫像等複雜場景,咱們會造成一個包裝好的解決方案,提供給用戶使用。

4.jpg

圖4 NLP平臺架構

圖4爲NLP平臺工程架構。咱們構建了一個支持Python環境的多任務調度微服務架構,從圖中能夠看到咱們利用Mongo、HDFS、ES、MQ等系統構建了相關的數據訪問層、模型算法層,在這兩層的基礎上,在微服務層咱們對算法模型進行任務調度管理;外部咱們暴露出相關的Web接口和App接口。此外,縱向來看,咱們集成了一些權限管理、多租戶管理功能,能夠對接企業內部的單點登陸、身份認證、權限控制等系統。

 

NLP技術在宜信的實踐背景暫且介紹到這裏,接下來咱們會爲你們介紹NLP技術在宜信應用的兩個場景:智能聊天機器人和構建客戶畫像。敬請你們期待~

WX20180910-152158@2x.png

相關文章
相關標籤/搜索