W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法

WEB:一種基於網絡嵌入的互聯網借貸欺詐預測方法算法

王成1,2,3, 舒鵬飛1,2數據庫

1 同濟大學計算機科學與技術系,上海 201804網絡

2 嵌入式系統與服務計算教育部重點實驗室,上海 201804架構

3 上海智能科學與技術研究院,上海 200092併發

摘要:基於關聯圖譜的互聯網借貸欺詐預測方法限制了特徵的挖掘效率、挖掘深度以及特徵的可複用性、可表達性。針對此問題,引入網絡嵌入技術,在保留欺詐特徵的前提下,將網絡中的節點嵌入低維的向量空間,利用向量對網絡中的結構和語義信息進行表達;提出了基於週期性時間窗口的網絡更新方法和決策批處理方法來提高網絡嵌入在精準性和實時性方面的性能。實驗代表,網絡嵌入技術可以自動有效地學習網絡中隱含的關聯關係與特徵;經過將傳統方法和網絡嵌入方法相結合,欺詐預測性能獲得了顯著提高。dom

關鍵詞: 關聯圖譜 ; 互聯網借貸 ; 網絡嵌入 ; 反欺詐 ; 風險防控機器學習

論文引用格式:分佈式

王成, 舒鵬飛. W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法. 大數據[J], 2019, 5(6):85-100ide

WANG C, SHU P F.WEB:a fraud prediction method of Internet lending using network embedding. Big Data Research[J], 2019, 5(6):85-100函數

1 引言

互聯網借貸平臺的規範化發展對社會經濟的進步起着積極的推進做用,而互聯網借貸欺詐已成爲阻礙其發展的重要消極因素。欺詐者向借貸平臺提供經過非法途徑獲取的他人信息或者僞造的虛假我的信息,達到騙貸的目的。一般,借貸平臺很難當即發現欺詐的發生,只有到還款日用戶未能按時還款,借貸平臺才能發現欺詐的發生,但此時形成的損失一般已沒法挽回。每一年互聯網借貸欺詐都給金融平臺形成了巨大的經濟損失。金融借貸平臺急需創建有效的欺詐風險預測機制,以求可以對用戶的借貸申請進行欺詐預測,並以此做爲發放貸款的依據。
圖1是互聯網借貸的流程,在用戶得到准入之後,借貸平臺就會啓動欺詐預測機制。目前,金融平臺經常使用的方法是創建黑名單機制和第三方徵信的方式。黑名單機制是指金融平臺會對某些曾經發生過借貸逾期未還的用戶創建黑名單,當在黑名單中的用戶再次申請借貸時,發生欺詐的風險就會太高。可是黑名單機制只能應對曾經申請過互聯網借貸的用戶,對於新的用戶沒法進行預測。利用第三方徵信的方式也是目前普遍應用的方式,金融平臺經過委託第三方徵信機構對申請貸款的用戶進行信用評估,將貸款發放給信用良好的借貸申請用戶。可是網絡貸款的申請數量衆多,且一般爲小額的貸款申請,利用第三方徵信的方式花費的時間成本和人力成本太高,並且對於那些盜用他人信息進行互聯網借貸的狀況一般很難進行判斷。

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法
圖1 互聯網借貸流程

近年來,隨着機器學習和數據挖掘技術的發展,愈來愈多的機器學習方法被應用到了金融反欺詐的領域。支持向量機(support vector machine,SVM)、樸素貝葉斯(naive Bayes)以及隨機森林(random forest)等機器學習模型已經在金融反欺詐領域獲得普遍應用。可是使用這些方法的前提是找出有用的數據特徵,這樣才能訓練出有效的機器學習模型。這須要研究人員具有必定的專家經驗,而且基於傳統機器學習的方法一般更關注顯性的欺詐特徵。隨着知識圖譜和圖數據庫技術的不斷髮展,基於知識圖譜的反欺詐技術吸引了愈來愈多研究者的關注。基於知識圖譜的方法可以有效地挖掘出網絡中潛在的欺詐特徵,Cao B等人提出了一種基於異質信息網絡的羣體欺詐檢測的方法。該方法基於知識圖譜的視角揭示可疑交易之間的關係,即交易間的依賴關係。經過捕獲常見的欺詐交易行爲來檢測可疑交易,這些欺詐交易行爲在單獨進行考慮時不會被視爲可疑行爲。他們提出的HitFraud方法能夠檢測出那些在獨立檢測下沒法識別的欺詐交易。Mao R等人提出了一種新的貨幣流通網絡欺詐交易識別的方法。從「殭屍」帳戶和「崩潰」網絡的角度對支付寶的資金流網絡進行分析,可以有效地識別出資金流網絡上超過99.3%的欺詐交易。McGlohon M等人提出了一種基於網絡鏈路分析的風險評估方法,這項工做創建在信念傳播算法的基礎上,用於檢測在線交易中的合謀欺詐,可是該方法須要網絡分析人員具備必定的領域知識和網絡鏈路分析的背景知識。
欺詐者一般利用非法得到的他人信息向借貸平臺申請網絡貸款,且一般是團伙做案,這些欺詐團伙提供的我的信息一般存在一些關聯性。針對以上問題,本文將關聯圖譜應用到了互聯網借貸反欺詐場景中,經過構建不一樣借貸申請之間的關聯網絡,利用關聯圖譜表達不一樣借貸申請之間的關聯關係。傳統基於關聯圖譜分析的方式須要研究人員掌握必定的行業背景和網絡分析的知識背景,經過人工分析網絡結構和特徵,挖掘出網絡中潛在的欺詐風險。這種基於人工網絡分析的方法須要耗費大量的人力和物力。而且,隨着數據網絡規模不斷擴大,傳統的網絡分析算法複雜度較高,須要消耗大量的計算資源。爲此,本文提出了一種稱爲WEB (windowing-embedding-batching)的互聯網借貸反欺詐方法。該方法將關聯圖譜和網絡嵌入技術相結合,創新性地應用到了互聯網借貸反欺詐領域,利用網絡嵌入技術自動進行網絡表徵學習,將網絡中的全部實體都映射到低維的向量空間,利用向量表達網絡中的全部信息,而且大規模網絡在向量空間中造成的表徵能夠有效地下降複雜度。本文中的網絡是一個動態更新的關係網絡,隨着借貸申請的增長,網絡的規模不斷擴大,網絡結構發生改變,致使每次更新都須要從新學習節點的向量表示。網絡嵌入技術在動態網絡實時嵌入上存在不足,針對互聯網借貸對實時性的低要求,本文提出了基於週期性網絡更新的方法和互聯網借貸批處理的方法,從動態網絡更新和風險批處理兩個方面克服網絡嵌入的不足。
本文提出的WEB方法經過在某金融平臺的互聯網借貸數據的實驗代表,利用網絡嵌入技術進行互聯網借貸反欺詐的效果接近於傳統的網絡分析的方法,但其具有不須要人工花費大量時間進行網絡分析的重要優點。經過將2種方法結合,可以有效地提升互聯網借貸欺詐風險預測的能力。實驗代表,利用網絡嵌入的方法可以挖掘出傳統網絡分析方法沒法得到的有效特徵。

2 相關工做

2.1 傳統網絡分析技術在反欺詐領域的應用

近年來,基於網絡分析的方法在網絡欺詐檢測領域獲得不斷髮展。
將傳統機器學習模型與網絡分析技術相結合的欺詐檢測方法愈來愈受到關注。在Veronique V V等人提出的方法中,根據交易數據構建用戶交易行爲的關聯圖譜,並使用RFM(recency-frequencymonetary)方法提取基本的網絡特徵,最後利用這些特徵訓練邏輯迴歸、隨機森林和神經網絡模型。實驗代表,經過將網絡特徵與隨機森林模型相結合,可以識別高達98%的信用卡欺詐交易。LIANG C等人提出了一種圖神經網絡的方法解決運費險欺詐性騙保問題。經過構建索賠人之間的設備共享網絡,開發了一個基於圖形學習算法的自動欺詐檢測解決方案,將欺詐者從普通客戶中分離出來,並發現有組織的欺詐者羣體。該方法在阿里巴巴平臺上有效地阻止了80%以上的欺詐性保險索賠案例。
在進行欺詐檢測時,記錄的標籤有時是不充分的,半監督的學習方法可以很好地解決標籤不充分的問題。Li Y等人將圖挖掘技術和半監督方法相結合,並將其應用在擁有少許標籤的數據集上。實驗證實,該方法可以在京東的線上欺詐套現場景中取得很好的效果。基於標籤傳播的算法是網絡欺詐檢測中經常使用的方法,Libichot B等人提出了一種基於網絡欺詐傳播的半監督檢測算法,從而識別信用卡欺詐交易。經過一組有限的、已確認的欺詐交易,根據網絡傳播欺詐的影響,判斷其餘未確認的交易是否爲欺詐交易,從而給其餘沒標籤的數據打上標籤。LU P等人提出了一種基於標籤傳播社區檢測算法(label propagation algorithm,LPA)的欺詐電話分析方法,經過將呼叫內容數據轉換成複雜的網絡,並將LPA應用在此複雜網絡上生成欺詐社區。經過生成網絡的詳細分析,提取社區的詳細信息。結果代表,該方法有助於快速識別詐騙電話。基於聚類和社區發現的無監督算法可以有效地應對羣體欺詐問題,Ganggopadhyay A等人提出了一種經過人際網絡挖掘欺詐社區的方法。經過構建人際關係網絡,對網絡中的社區結構進行分析,可以有效地挖掘網絡中的欺詐團伙,實驗證實了該方法在大型人際網絡中的有效性。Kim J等人將神經網絡模型與聚類模型相結合,提出了一種基於層次聚類的深度神經網絡方法,該方法將自動編碼器預先訓練的層次聚類的異常特徵做爲深度神經網絡的初始權值來檢測各類欺詐行爲。
在基於傳統網絡分析的欺詐檢測方法中,重點主要集中在尋找適合業務場景的網絡特徵,而且隨着網絡規模的不斷擴大,網絡中「邊」的存在給網絡處理和分析帶來極大挑戰,使得網絡分析算法是迭代或組合爆炸的,致使複雜的網絡分析算法沒法應用於大型的網絡結構。所以現在的網絡規模已經使得任何相對複雜的分析算法都不可能在實際中被大規模地應用。

2.2 網絡表徵學習

網絡表徵學習的目標是爲網絡中的每個節點學習一個特徵表達,這種特徵表達一般爲低維的向量空間。給定一個網絡G=(V,E),對於網絡中的每個節點v,都能學習出一個d維的向量空間,其中d<<|V|,對於整個網絡,就生成了一個向量矩陣X∈R|V|×d,這個矩陣可以獲取網絡中不一樣節點之間的結構和語義聯繫。
將大規模的網絡在向量空間中進行表徵能夠有效地下降複雜度,不只能夠很是容易地進行分佈式並行計算,同時還能夠應用前沿的機器學習算法對網絡數據進行學習和分析。目前,經常使用的網絡表徵模型主要有如下3種。
(1)基於矩陣分解的模型
鄰接矩陣一般用來表示網絡的拓撲結構,其中每一行和每一列能夠表明一個節點,矩陣的值表明節點之間的關係。能夠簡單地用行向量或列向量做爲節點的向量表示,但造成的矩陣空間巨大。矩陣分解的方法以學習原始矩陣的低秩空間爲目標,能夠將網絡嵌入一個低維的向量空間。在一系列矩陣分解模型中,奇異值分解(singular value decomposition,SVD)[18]、非負矩陣分解(no-negative matrix factorization,NME)被普遍地應用於網絡嵌入中。
(2)基於隨機遊走的模型
在進行網絡嵌入時,保留網絡結構是基本要求。受Word2Vec模型的啓發, Perozzi B等人提出了基於隨機遊走和skip-gram模型結合的DeepWalk模型,利用隨機遊走的方式獲取網絡的局部結構信息,並利用skip-gram模型對網絡進行嵌入學習,以得到節點的向量表示。Tang J等人在DeepWalk的基礎上進行了改進,在一階鄰居類似性的基礎上加上二階鄰居類似性,從而學習到對大規模稀疏網絡有更好的區分能力的節點表示。
(3)基於深度神經網絡的模型
網絡嵌入是將原始網絡空間轉化爲低維向量空間,內在的問題是學習這2個空間之間的映射函數。有些方法(如矩陣分解)的前提假設是認爲映射函數是線性的。然而,網絡的造成過程複雜且高度非線性,所以線性函數可能不足以將原始網絡映射到嵌入空間。若是要尋找一個有效的非線性函數學習模型,深層神經網絡無疑是有用的選擇。結構化深度網絡嵌入(structural deep network embedding, SDNE)和堆疊降噪自編碼器(stacked denoising auto encoder,SDAE)是具備表明性的基於深度學習模型的網絡嵌入方法。

3 方法設計

本節主要介紹利用網絡嵌入技術進行互聯網借貸反欺詐的方法研究,主要包括關聯網絡的構建和風險預測方法的研究。

3.1 關聯網絡構建

用戶的歷史借貸記錄Sn={(x1,y1,t1),(x2,y2,t2),…,(xn,yn,tn)}是一個按時間排列的序列,其中xi∈Rm(i=1,2,…,n)是在ti時刻產生的借貸記錄,有m個不一樣的特徵,一般包括申請人信息、電話、地址等。yi∈{0,1}(i=1,2,…,n)是記錄xi的標籤,1表示該筆借貸是欺詐借貸,0表示該筆借貸是正常借貸。對於在tn+1時刻產生的一條新的申請記錄xn+1,筆者的目的是預測借貸申請xn+1的欺詐機率risk(xn+1)。

圖片

筆者利用動態網絡分析的方法進行欺詐預測。給定一個tn時刻的交易序列Sn,構建一個對應的關係網絡Gn=(V,E,W,Tn),即∅:Sn→Gn,其中V是網絡中的節點,E是網絡中的邊,W是邊的權重,Tn是tn時刻網絡中節點的時間戳序列。在時序網絡Gn中,每一個節點對應Sn的一條記錄ϕ:X →V,vi∈V表示申請記錄xi在網絡中的表示,節點的時間戳ti∈Tn。給定兩筆借貸記錄xi和xj,統計兩條記錄相同的特徵個數count(i,j)。若是count(i,j)>0,則在網絡中節點vi和節點vj之間存在一條邊,即eij∈E,且邊eij的權重wij=count(i,j),則問題轉化爲:
W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法

圖2(a)是基於表1的借貸記錄構建的關係網絡。表1中有5筆不一樣的借貸記錄,分別對應網絡中的5個節點,每條記錄有5個不一樣的特徵(編號、時間、借貸人姓名、住址、公司),這些特徵多是申請人的真實信息,也多是虛假信息。其中,記錄x1和x2有1個相同的特徵(公司),即count(1,2)=1,則在網絡中節點v1和v2之間存在一條邊,且邊的權重w12=1。

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法
圖2 借貸關係網絡構建與更新

(1)序列窗口化
給 定 一 個 t 時 刻 的 關 系 網 絡Gt=(V,E,W,Tt),在此後的時間裏,每產生一條記錄,都須要在網絡中添加一個新的節點,並計算該節點與網絡中其餘全部節點之間的關係。隨着時間的不斷增加,網絡中的節點和邊的數量不斷增長,網絡規模不斷增大。在進行互聯網借貸欺詐預測時,數據存在必定的時效性,相關聯的欺詐借貸一般彙集在必定的時間週期內。在對龐大的網絡進行網絡嵌入時,會學習到不少沒必要要的關聯信息,而且會增長網絡嵌入學習的複雜度,減少網絡嵌入的效率。
本文提出了一種基於週期性滑動窗口的網絡更新方式,設置一個固定大小爲α的時間窗口和一個滑動週期β。在t時刻只保存時間戳ti∈[t-α,t]的節點,將時間戳小於t-α的節點和相關聯的邊從網絡中刪除。從t時刻以後的時間β內,在任意t+j(0≤j<β)時刻產生1條新的記錄xt+j,在網絡中添加1個新的節點vt+j,並計算與該時刻以前的網絡Gt+j-1中全部節點之間的關係,生成相應的邊,更新後的網絡爲Gt+j,此時網絡中任意一個節點的時間戳ti∈[t-α,t+j]。在t+β時刻,即j=β,滑動時間窗口,刪除網絡中時間戳小於t+β-α的節點和其相連的邊,生成t+β時刻的網絡Gt+β。在網絡Gt+β中,任意一個節點的時間戳ti∈[t+β-α,t+β]。所以在t以後的β時間內,任意時刻t+j網絡中的節點爲:

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法

圖2(b)是在表1構建的原始網絡上增長表2的記錄x6和x7更新後的網絡。在初始關係網絡中,添加節點v6和v7,並生成相應的邊與邊上的權重。設置滑動週期β=t7−t5,則在t7時刻滑動時間窗口,時間窗口的大小a<t7−t2,則節點v1和v2在t7時刻從關係網絡中被刪除,與其相關的邊也被刪除,圖2(b)中虛線的點和邊即刪除的節點和邊。
(2)網絡嵌入法
給定一個由借貸申請構成的關係網絡G=(V,E,W),提取出網絡中重要的特徵對於互聯網借貸反欺詐是很是重要的。在本文中,利用網絡嵌入技術將全部的網絡節點嵌入低維的向量空間,得到的向量可以表達網絡中節點之間的關係。
在天然語言處理中,給定一個語料庫,利用Word2vec算法,可以將網絡中的每個單詞映射到一個低維向量空間。受此啓發,利用skip-gram模型學習網絡中節點與局部鄰居節點之間的結構類似性,將網絡中的每一個節點映射到一個低維的向量空間。基於局部結構類似性,skip-gram模型的目標是最大化如下機率:

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法

其中,N(v)是節點v在網絡中局部鄰居集合,可包括節點的一階鄰居、二階鄰居或其餘多階鄰居;p(c|v;θ)表示在給定節點v的狀況下,節點c是節點v的鄰居節點的條件機率。在基本的skip-gram模型中,機率p(c|v;θ)能夠經過softmax函數定義:

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法

其中,Xv是節點v的向量表示。
在本文中,經過訓練skip-gram模型將關係網絡中的每一個節點嵌入一個d維的向量空間,即每條借貸記錄均可以獲得一個d維的向量表示。
skip-gram模型訓練時輸入的是多個節點對,在利用skip-gram模型進行向量學習以前,須要獲取每一個節點與其局部鄰居節點的節點對。在本文中,輸入skipgram模型中的就是借貸記錄節點對。
對於網絡中的一個借貸記錄節點v,將其做爲遊走的首節點,而後從節點v隨機走到其任一鄰居節點c1,而後從c1隨機遊走到c1的任一鄰居節點c2,以此類推。設置一個隨機遊走的長度l,當從v隨機遊走的序列長度等於l時,中止遊走,那麼從節點v經過隨機遊走就能夠獲得一個借貸記錄節點序列圖片。重複此過程,依次選取網絡中的每一個節點做爲隨機遊走的首節點,這樣完成了以網絡中每一個節點做爲遊走首節點的過程後就獲得了|V|條長度爲l的隨機遊走序列。爲了增長樣本的個數,隨機遊走的過程能夠重複屢次,設置一個重複遊走的次數r。經過重複r次以網絡中每一個節點做爲遊走首節點的隨機遊走過程後,筆者獲得了r|V|條隨機遊走的節點序列,這些序列也能夠看做多條申請記錄序列。

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法

爲了得到交易記錄節點對(v,u),設置局部鄰居節點範圍大小h,並設置一個大小爲2h+1的滑動窗口,利用這個滑動窗口在每條遊走的借貸記錄節點序列上進行滑動,每滑動一次,就得到了一個窗口序列圖片,將中間節點vi做爲中心節點,將其前面h個節點和後面h個節點看做節點vi的局部鄰居節點,這樣每滑動一次就能夠得到2h個節點對圖片,經過固定大小的滑動窗口在每條遊走序列上進行滑動,就獲得了訓練skip-gram模型的樣本集合。
在本文中,筆者採用nod2vec中隨機遊走的方式,該方法設置兩個控制參數p和q,假設以前一步剛剛從節點vi遊走到節點vj,當前正遊走在節點vj上,如今節點vj不是隨機選擇一個鄰居進行遊走,而是根據遊走轉移機率πjk遊走到下一個節點vk,設置πjk =µ(i,k)⋅wjk,其中wjk是節點vj和節點vk之間邊的權重,µ(i,k)可表示爲:

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法

其中,dik表示節點vi和vk間的最短距離,只能屬於{0,1,2},參數p,q至關於調節深度優先和寬度優先搜索的程度。從節點vi遊走到節點vj後,應該再從節點vj遊走到其某一個鄰居節點vk,當p太小時,從節點vj隨機遊走再次返回節點到vi的機率會變大,即vk=vi的機率會增長,若是vk=vi,則下一次又會從vi隨機遊走到一個鄰居節點,這相似於網絡中的廣度搜索;當q的值太小時,從節點vi遊走到節點vj後,再從vj遊走到一個不等於vi的鄰居節點vk的機率會增長,這相似於網絡中的深度優先搜索。在本文中的隨機遊走過程當中,其隨機轉移機率是由邊的權重和網絡搜索參數共同決定的。
(3)預測批處理
不一樣於在線支付等網絡欺詐檢測對實時性的要求,互聯網借貸一般存在必定的審覈期。同時,利用網絡嵌入技術,很難實現實時的欺詐風險預測(即每有一筆新的借貸申請就當即判斷是否爲欺詐申請),並且這種實時的欺詐檢測也是沒必要要的。在本文中,筆者提出了一種借貸申請批處理的方法。
設置一個批處理的時間δ(δ<<α),每隔δ時間,對此期間產生的全部借貸申請進行欺詐預測。在t時刻對當前全部的借貸記錄進行了處理,在此後的δ時間內,每產生一條新的記錄,只更新借貸關係網絡,不進行網絡嵌入和欺詐預測的工做。在t+δ時刻的關係網絡爲Gt+δ,此時網絡中的節點V分爲兩部分,一部分是從t時刻到t+δ時刻之間生成的節點集合Vtest,對於任意的節點vi∈Vtest,其時間戳ti∈[t,t+δ]。另外一部分的節點集合是Vtrain=V\Vtest,假設關係網絡最近一次進行週期性滑動窗口更新的時間爲tk,則對於任意節點vi∈Vtrain,其時間戳ti∈[tk−α,t]。
在t+δ時刻,將此時的關係網絡Gt+δ輸入網絡嵌入模型中,對於任一節點v∈V會獲得其對應的向量表示。將Vtrain中節點的向量和其對應的記錄標籤輸入分類器模型中,訓練一個分類器模型。模型訓練完成後,將Vtest中節點的向量輸入訓練好的分類器模型中,對於任一節點vi∈Vtest,模型會輸出其對應的借貸記錄xi的欺詐風險值。設置一個欺詐風險閾值threshold,高於這個閾值的申請記錄就能夠看做欺詐借貸,拒絕給此類申請提供借貸服務,低於threshold的記錄就能夠看做正常的借貸申請,欺詐風險較小。
WEB算法的描述以下。

輸入:借貸申請流S,上次週期性窗口滑動時間tu,上次批處理時間tp。
輸出:S中每一筆借貸申請是否爲欺詐(0或1)。
for each xi∈S
更新關係網絡vi⇐xi,Gi⇐Gi−1;
if tu+α=ti then
滑動時間窗口,刪除網絡中時間戳小於ti+β−α的節點和對應的邊;
for each v j∈Gi
t j∈[ti+β−α,ti];
end for
tu=ti
end if
if t p+δ=ti then
利用隨機遊走和skip-gram學習網絡Gi中每一個節點的向量表示;
劃分出訓練集Vtrain和批處理測試集Vtest;
for each v j∈Vtrain
t j∈[tu+β−α,tp];
end for
for each v j∈Vtest
t j∈[tp,ti];
end for
利用Vtrain中節點的向量表示和標籤訓練一個分類器模型;
將Vtest輸入分類器中進行批預測,輸出每條借貸申請的欺詐風險值集合;
for each r∈R
if r≥tthrreasholdld then
該條借貸申請爲欺詐申請;
return 1;
else
該條借貸爲正常借貸申請;
return 0;
end if
end for
tp=ti;
end if
end for
輸出借貸申請流S中每條申請是否爲欺詐申請;

4 系統架構

圖3所示是本文提出的WEB系統的架構,它主要包括3個主要的部分。
(1)網絡更新
在當前t時刻,須要根據用戶的歷史記錄St構建一個借貸關係網絡Gt,該網絡可以顯性地反映不一樣記錄之間的關係。在此後的β時間內,每產生一條新的記錄,在網絡中添加一個新的節點和與該節點相關的邊。在β時間後,滑動大小α的時間窗口,刪除時間戳小於t+β-α的節點和與其相關的邊。利用基於週期性滑動窗口的網絡更新方法既能使得最新的記錄實時地更新到網絡中,又能在特定時刻刪除一部分沒必要要的網絡元素。在實際業務中,一般將時間窗口的大小設置爲6個月,滑動週期的大小設置爲15天。
(2)網絡嵌入
爲了擺脫專家經驗和傳統網絡分析方法的弊端,本文利用網絡嵌入的方法提取出借貸網絡中隱含的關聯特徵。利用帶權重的隨機遊走方式和skip-gram模型可以將每條申請記錄嵌入低維的向量空間中,利用向量空間統一地表示每條申請記錄。向量空間可以隱含地表示網絡中的關係與特徵,不須要進行傳統網絡分析中的大量特徵工程的工做。

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法
圖3 WEB系統架構

(3)風險批處理
歷史的申請記錄一般是有標籤的,筆者對歷史交易記錄的向量進行建模,訓練一個分類器模型就能夠對新產生的借貸申請進行風險預測。每次在批處理時間間隔δ後,將當前的關係網絡輸入skip-gram模型中,學習每一個節點的向量表示,而後利用δ時間間隔以前的節點和記錄標籤訓練一個分類器模型,並對δ期間的借貸記錄進行風險預測。在實際業務中,根據不一樣平臺對實時性的要求,批處理時間一般是不一樣的,考慮到網絡欺詐借貸的彙集性,δ一般設置爲3天。

5 實驗結果與分析

5.1 數據描述

實驗數據集是從某金融借貸平臺收集的1 516 995條互聯網借貸數據,時間跨度爲2015年1月1日到2017年7月31日。按時間順序對數據集進行劃分,將2017年7月1日以前的數據做爲訓練集,將2017年7月1日至31日的數據做爲測試集。利用2017年7月1日以前的全部記錄創建一個原始的關係網絡,原始關係網絡中有1 467 690個節點,即2017年7月1日以前一共有1 467 690條借貸申請記錄,其中只有280 574條記錄有真實的標籤(0爲正常,1爲欺詐),超過80%的樣本沒有標籤。在有標籤的樣本中只有14 574條爲欺詐樣本,佔總樣本的比例小於1%。爲了便於存儲大規模的網絡結構,本工做使用Neo4j數據庫存儲構建的關係網絡。

5.2 評價指標與閾值選擇

通常來講,評價二元分類器性能的指標有不少,如AUC值(OC曲線下面積)、F-measure度量等。然而,這些指標不能直接反映模型的影響,特別是在數據不平衡的狀況下。考慮到實際使用狀況,筆者使用精確率、召回率和打擾率做爲評估指標,定義以下:W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法,其中,TP、FP、TN和FN分別表示真陽率、假陽率、真陰率和假陰率。
在欺詐檢測場景中,目標不只是檢測更多的欺詐借貸,並且要減小誤檢測的數量。因爲分類模型一般輸出欺詐交易的風險機率,所以須要設置一個閾值來肯定是否發生欺詐。閾值實際上提供了精確率和召回率之間的權衡,對於不一樣的閾值,精確率、召回率和打擾率都會發生變化,而且對於不一樣的分類器,閾值多是不一樣的。
在本文中,筆者使用KS值做爲選擇閾值的原則。假設測試集中共有n個測試樣本,通過模型判別後每一個樣本都會輸出一個風險機率值,將n個風險值從小到大排列爲圖片 ,依次選擇圖片中的值做爲閾值,並計算不一樣閾值下的召回率和打擾率爲:

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法

則KS值爲不一樣閾值下召回率和打擾率差值的最大值,能夠表示爲:

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法

則分類器的閾值能夠表示爲:

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法

其中,I(·)是指示函數(indicator function)。KS值可用於評估模型風險區分的能力, KS值越大,表示該模型可以更好地區分欺詐樣本與正常樣本。

5.3 分類器選擇

利用網絡嵌入技術能夠將網絡中的每一個節點嵌入低維的向量空間,利用向量表達網絡中的關聯特徵,在完成特徵表徵學習後,須要利用機器學習的分類器模型進行欺詐預測。爲了選擇適合WEB系統的分類器模型,在本節比較當前幾種主流分類器的性能,包括XGBoost、隨機森林、KNN、SVM以及邏輯迴歸(logistics regression)。參數設置爲d=128,h=3, p=1,q=1,時間窗口α爲6個月,滑動週期β爲15天,批處理時間δ爲3天。圖4所示爲不一樣分類器在精確率、召回率、打擾率和KS上的結果。
從圖4可知,性能最好的是XGBoost,其精確率超過60%,召回率超過40%,KS值接近40%,而打擾率只有5%,精確率、召回率和KS值均大於其餘分類器的測試結果,而且打擾率較其餘分類器更小,這意味着利用XGBoost分類器在能發現更多欺詐借貸的同時,可打擾更少的正常借貸申請。隨機森林的結果與XGBoost相差很小,其次是KNN,性能最差的是SVM和邏輯迴歸分類器。邏輯迴歸分類的打擾率接近10%,這代表會打擾到接近10 %的正常借貸申請,致使KS值很小,模型的風險區分能力很小。根據實驗的結果可知,將XGBoost做爲WEB系統中的分類器模型可以實現更好的欺詐預測性能。

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法
圖4 分類器性能比較

5.4 網絡分析比較

在本節,將基於網絡嵌入的方法和傳統網絡分析的方法進行比較,這2種方法都是將XGBoost做爲基本的分類器模型。
● 傳統網絡分析:在利用傳統的網絡分析的方法中,須要從全部數據構建的大型網絡中提取有效的網絡特徵。經過結合網絡分析與專家經驗,對於每條記錄,提取15個有效的網絡特徵(如節點的一階鄰個數、二階鄰個數等),而後利用這些網絡特徵和記錄標籤訓練一個XGBoost模型。當有一筆新的借貸申請產生時,更新關係網絡,並從網絡中提取該記錄的15個特徵,輸入訓練好的XGBoost模型中,模型能夠獲得當前記錄的一個風險值。
● 網絡嵌入:利用本文提出的網絡嵌入方法進行互聯網借貸欺詐檢測。
● 網絡嵌入+傳統網絡分析:將傳統網絡分析方法和網絡嵌入方法提取的特徵相結合,用於訓練分類器模型,並對最新產生的借貸申請進行欺詐風險判斷。
圖5比較了兩種方法在2017年7月的數據集上的測試結果,網絡嵌入方法檢測性能接近於傳統網絡分析的方法。雖然傳統網絡分析的方法可以檢測出更多的欺詐樣本,可是也打擾了更多的正常借貸申請;而且網絡嵌入技術只利用了小型的同質網絡就達到了很好的效果,而基於傳統網絡分析的方法是在大型的關係網絡中進行分析的,須要消耗很大的存儲與計算資源,算法複雜度較高。
經過將2種方法結合,召回率和KS值獲得了大幅的提升,見表3。二者結合的召回率比傳統網絡分析的方法提升了約8%,比網絡嵌入的方法提升了13%;KS 值比傳統網絡分析的方法提升了5%,比網絡嵌入的方法提升了接近10%。這意味着經過結合,能夠檢測出更多的欺詐樣本,而且訓練的模型可以更好地區分正常樣本與欺詐樣本。

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法
圖5 網絡嵌入與傳統網絡分析方法的比較結果

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法

同時筆者發現,將傳統網絡分析與網絡嵌入方法相結合,性能可比傳統網絡分析的性能有大幅提升,這證實了網絡嵌入技術可以挖掘出傳統網絡分析方法沒法提取的特徵。一般,傳統網絡分析方法對網絡中的顯性特徵比較敏感,而網絡嵌入技術更可以挖掘出網絡中的隱性關聯特徵。

5.5 參數分析

利用網絡嵌入技術進行節點向量化表達時,主要的參數是設置向量的維度d和在隨機遊走序列上進行採樣的滑動窗口參數h,圖6表示不一樣參數下欺詐借貸檢測的KS值。
利用網絡嵌入技術進行節點向量表達時,向量的維度一般設置爲2的整數次冪,在圖6(a)中,設置了5個不一樣的向量維度,並比較它們的KS值。當向量維度太低時,一般很難對網絡進行完整的表達;當向量維度太高時,一般會增長訓練的複雜度。當d=16時,其KS值低於10%,沒法有效地學習到網絡中的關聯關係;當d=256時,雖然KS的值比較高,可是與d=128時的KS值只有很小的差距。爲了既能對網絡進行完整的表達,又能下降網絡嵌入的複雜度,在本文中,d=128是最好的選擇。
利用網絡嵌入技術,可以學習到網絡的結構類似性。在本文中,利用網絡嵌入技術能夠學習到不一樣借貸申請之間的局部關聯性,經過設置不一樣的滑動窗口參數h,可以學習到h階鄰居的關聯關係。在圖6(b)中,設置了5個不一樣的h值,並比較它們的KS值。從圖6(b)能夠看出,當h=2時,欺詐檢測的性能最好,這說明欺詐借貸之間存在着一階或二階關聯性(當h=2時可以學習到最多的二階關聯性),羣體欺詐的彙集度較高。隨着h值的增長,網絡嵌入可以學習到更高階的鄰居類似性,但同時也會對欺詐檢測形成干擾。

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法
圖6 不一樣參數下欺詐借貸檢測的KS值

向量的維度大小和滑動窗口的參數不只影響模型的性能,同時也影響網絡嵌入模型的訓練時間,圖7(a)展現了在不一樣的向量維度下的網絡嵌入的時間,能夠看出, d的值加倍時,模型的訓練時間增加得較快。圖7(b)表示了不一樣的滑動窗口下的模型訓練時間,能夠看出,滑動窗口的大小對網絡嵌入模型訓練時間的影響較小。

W EB:一種基於網絡嵌入的互聯網借貸欺詐預測方法
圖7 不一樣參數下的網絡嵌入時間

6 結束語

關聯圖譜正逐漸成爲一種主流的欺詐檢測方法之一,它可以有效地表示不一樣實體間的關聯關係。利用傳統網絡分析的方式對關聯圖譜進行特徵提取時,須要研究人員具有必定的經驗,而且在大規模的網絡中,傳統網絡分析技術的算法複雜度較高。本文將網絡嵌入技術創新性地應用到了互聯網借貸欺詐風險預測的領域,給基於關聯圖譜的欺詐風險預測提供了新的啓發。網絡嵌入技術可以利用向量對網絡進行表達,下降了網絡複雜度。實驗證實,該種方法可以有效地挖掘出網絡中的隱性關聯特徵。本文使用的是基於同質網絡的嵌入技術,雖然在必定程度上可知足互聯網借貸欺詐風險預測的任務,但丟失了網絡中的不少信息,如邊的類型等。利用異質網絡結構可保留更多的網絡信息,但其嵌入複雜度也隨之大幅增長。在下一步工做中,筆者將着力於運用和設計異質網絡嵌入技術,在保留更加全面的互聯網借貸欺詐特徵的前提下優化算法,以下降執行復雜度。

相關文章
相關標籤/搜索