1 背景介紹算法
1.1 傳統反欺詐技術面臨挑戰數據庫
數字技術與金融業的融合發展,也伴隨着金融欺詐風險不斷擴大,反欺詐形勢嚴峻。數字金融欺詐逐漸表現出專業化、產業化、隱蔽化、場景化的特徵,同傳統的詐騙相比,數字金融詐騙每每是有組織,成規模的,他們分工明確、合做緊密、協同做案,造成一條完整的犯罪產業鏈。傳統反欺詐技術面臨的三大挑戰:維度單1、效率低下、範圍受限。(引用自《數字金融反欺詐白皮書》)安全
1.2 圖數據庫技術應運而生服務器
面對複雜的大數據,如何高效的從大規模數據中獲取有價值的信息,傳統技術面臨巨大挑戰。網絡
圖數據庫這項新興技術正是反欺詐的一把利劍,基於圖數據庫技術構建的關係圖譜可用於深度數據挖掘,包括:關係推理、關聯度檢測、集中度測量、語義分析、團伙發現、可視化展現等。大數據
本質上反欺詐面臨的核心問題就是如何處理海量的用戶關聯關係。傳統關係型數據庫在處理海量關係上作得並很差,面對複雜關係網絡的處理存在以下問題:數據規模大難以存儲、計算效率低、關係建模難、維護性/易用性/擴展性差等。與傳統關係型數據庫不一樣的是,圖數據庫在處理關聯關係上具備天生的優點,這些問題都能很好的一一化解。根據DB-Engines報告,從最近十年的表現來看圖數據庫已經成爲關注度最高,發展趨勢最明顯的數據庫類型。優化
HugeGraph圖數據庫就是在這個需求背景下應運而生的。代理
HugeGraph是百度安全面對反欺詐、威脅情報、黑產打擊等業務自研的一款圖數據庫。HugeGraph經過多維度的特徵檢測(屬性特徵、關係特徵)、關聯度檢測、團伙檢測等技術來識別欺詐風險,提供了由點及面的反欺詐解決方案。blog
2 欺詐特徵檢測數據挖掘
根據用戶的特徵檢測分析,咱們能夠對其進行風險度評分,特徵檢測主要包括以下幾方面:
2.1 屬性特徵檢測
· 信用記錄(貸款、還款、逾期記錄等)
· 匹配電話黑名單(公檢法公開名單、數據聯盟不良名單)
· 匹配詐騙地理位置(如詐騙中介、代辦機構)
· 匹配代理服務器名單
· 檢測信息造假或隱瞞:如學歷、年齡、地址、公開簡歷、IP定位等。
2.2 關係特徵檢測
· 大量帳戶同時擁有同一個手機號
· 大量用戶同時使用同一個手機或WiFi網絡
· 同一個帳號或設備在多平臺申請借貸
· 自相矛盾關係檢測,包括:用戶填寫的關係自相矛盾、用戶公司地址自相矛盾、通話記錄與職業自相矛盾等等
· 關係環路檢測(好比檢測是否有循環擔保)
· 多層關係高度彙集性檢測,好比大量帳號經過大量虛假設備接入同一個網絡
2.3 關聯度檢測
近朱者赤近墨者黑,經過用戶的關係網絡來檢測其與風險節點的關聯度,可識別出其風險程度並做爲一個參考指標,好比某用戶3度關係以內是否觸黑。這個過程咱們稱之爲關聯度檢測。
關聯度檢測的典型技術包括:
· 檢測用戶的多層社會關係是否符合正常的圖譜特徵,好比如果孤立的子圖則多是假造的關係網絡,該用戶存在高風險
· 檢測多層關係網絡中是否包含高風險節點,好比二度觸黑
· 經過PersonalRank、PageRank等算法計算關係網絡中節點的風險評分
其中高風險節點包括黑/灰名單、高風險評分節點等;關係網絡是指實體(用戶ID、帳戶、手機號、設備、地點)與各類關係(如通信錄、通話記錄、轉帳交易、登陸地點)之間的相互關聯組成的網絡。
3 欺詐團伙檢測
3.1 使用社區發現算法檢測欺詐團伙
用戶的關聯關係是一個複雜的網絡,對複雜網絡的研究一直是許多領域的研究熱點,其中社區結構是複雜網絡中的一個廣泛特徵,同一個社區內的節點之間的鏈接緊密,而社區與社區之間的鏈接則比較稀疏。正如《數字金融反欺詐白皮書》所述,數字金融詐騙每每是有組織成規模的,如何找出這些組織本質上就是從複雜網絡中找到一個一個的團伙並加以分析。
檢測欺詐團伙的算法咱們稱之爲社區發現算法(或者說社區聚類算法),社區發現是一個複雜而有意義的過程,近幾年來,分析複雜網絡中的社區結構獲得了許多學者的關注,同時也出現了不少社區發現算法(如LPA、SCAN、Louvain等)。
在金融關係網絡裏面每每社交屬性比較弱,大部分用戶的社交關係很稀疏,找到關係緊密的社區就是發現欺詐團伙的關鍵,固然並非全部的團伙都是欺詐團伙,所以有必要根據一個閾值來進行評判,好比根據前述欺詐特徵檢測出來各成員的風險評分,若是大於0.7分的用戶在某團伙佔比達到60%則判爲欺詐團伙。
HugeGraph圖數據庫目前提供了兩種社區發現算法:簡單高效的標籤傳播算法LPA,以及基於模塊度優化迭代算法Louvain。經過圖的社區發現算法將用戶劃分爲一個一個的羣體(咱們稱之爲團伙),而後根據團伙中各成員的風險評分綜合計算整個團伙的風險程度,從而識別出高風險的欺詐團伙。
3.2 社區發現算法簡介
LPA 算法簡介
第一步:爲全部節點指定一個惟一的標籤;
第二步:逐輪刷新全部節點的標籤,直到達到收斂要求爲止。對於每一輪刷新,節點標籤刷新的規則以下:對於某一個節點,考察其全部鄰居節點的標籤,並進行統計,將出現個數最多的那個標籤賦給當前節點。當個數最多的標籤不惟一時,隨機選一個。
Louvain 算法簡介
第一個階段:首先將每一個節點指定到惟一的一個社區,而後按順序將節點在這些社區間進行移動。分別嘗試將節點移動到相鄰節點所在的社區,並計算相應的模塊度變化值,哪一個移動變化最大就將節點移動到相應的社區中去。按照這個方法反覆迭代,直到網絡中任何節點的移動都不能再改善整體模塊度值爲止。
第二個階段:將第一個階段獲得的社區視爲新的「節點」(一個社區對應一個),從新構造子圖,兩個新「節點」之間邊的權值爲相應兩個社區之間各邊的權值的總和,原社區內部邊的權值之和做爲新「節點」的權值。簡單來講若是社區內部權值越大、社區之間權值越小,那麼整體模塊度就越大。
Louvain算法包含了一種層次結構,正如對一個學校的全部初中生進行聚合同樣,首先咱們能夠將他們按照班級來聚合,進一步還能夠在此基礎上按照年級來聚合,兩次聚合均可以看作是一個社區發現結果,就看想要聚合到什麼層次與程度。
社區發現算法總結
LPA算法優點是算法簡單,效率高;Louvain的優點是支持多層聚類,能夠先把全部用戶劃分爲小組,而後以小組爲單位進一步聚類,劃分爲大組,以此類推,這樣能夠發現更大或者更爲隱蔽的詐騙團伙。
將來,咱們也將持續利用各類新技術、新手段、新模型,結合互聯網業務風控場景的典型特徵,探索更多行之有效的方法,應用到金融反欺詐中,相信很快,圖數據庫技術會發揮出更大的價值。