
愛奇藝風控團隊負責公司全業務風險防控,面向業務提供通用與定製相結合的一站式解決方案,爲業務賦能,增強業務核心競爭力。風控中臺提供涵蓋帳戶安全、會員安全、內容生態保護、拉新裂變反做弊、營銷活動、金融支付等各個互聯網風險場景的專屬解決方案,已接入30+業務線,300+業務風險點。本論文由愛奇藝與南京大學共同完成,是雙方產學研合做的一部分,旨在探索圖神經網絡在拉新裂變反做弊場景的應用。node

背景git

在流量爲王的時代,拉新裂變是各大互聯網公司爭奪新用戶的重要手段。活動可觀的用戶獎勵(現金、會員卡等),也使其成爲黑灰產的重點攻擊目標之一。爲了保障活動效果及用戶質量,高準召的風控也顯得日益重要。github
黑灰產一般採用模擬器、多開分身、改機、設備農場、代理IP、接碼平臺、衆包平臺等工具批量僞造新用戶參與活動,將活動獎勵據爲己有。形成公司資金損失、業務關鍵指標降低、正經常使用戶體驗受損等多方面影響。針對此類攻擊,業界已有一些較爲成熟的防護模型:web
• 頻繁集檢測(FP-Growth):批量攻擊每每會在設備、網絡、時間、地點等維度或維度組合上出現大量彙集,此時頻繁集檢測是簡單有效的檢測與預警算法。算法
• 聚類/無監督:K-means、iForest等,通常提取行爲特徵後進行聚類或異常點檢測,以找到行爲類似異常彙集或異於正常行爲的用戶。具備較高的魯棒性,可是準確率不易掌控。安全
• 有監督模型:LR、XGBoost等,提取手工特徵,根據已知正負樣本訓練模型。準確率通常較高,可是泛化能力不好。微信
• 社區檢測:Louvain、Fraudar、高密子圖等,引入了關係信息,可提高對頻繁換物料的攻擊的識別能力,能夠理解爲頻繁集檢測的升級版,同時能夠用於標籤傳播,提高召回。網絡
• 圖神經網絡:GCN,GraphSage等,可以使特徵信息在節點間傳播,併發揮出神經網絡對於特徵的抽象能力,同時也支持只有部分標籤進行半監督學習。架構
本文基於拉新裂變場景中廣泛存在的關聯數據(邀請關聯、設備關聯、網絡關聯等)以及業務場景特色,創新地提出了異構小圖神經網絡模型(HMGNN),進一步提高了對攻擊的識別能力。併發

簡介


業務場景
用戶參加拉新活動,符合如下條件都可得到積分、獎品或現金:
• 老用戶邀請新用戶達到必定數量
• 用戶參加各類激勵活動(簽到、下載、答題等)
一些典型的攻擊方式包括:
• 僞造新設備:活動需經過設備id來判斷新用戶,經過模擬器、多開分身、改機、設備農場等,均可以假裝成新的設備,從而繞過一些簡單的設備判新規則。
• 僞造新用戶:活動須要經過手機號來驗證新用戶,經過虛擬小號、海外黑卡、私域黑卡等物料,輔助貓池、接碼平臺等工具,攻擊者能夠全自動化完成的手機號驗證。
• IP:IP是經典的黑產與風控攻防維度,經過代理IP、秒撥IP等,能夠繞過一些簡單的IP策略。

建模與挑戰
拉新活動包含了大量的用戶關係,所以使用圖模型是一個很是天然的想法。直接將參與活動的用戶做爲圖模型中的節點。用戶間的邀請關係、設備共享關係、網絡環境參數共享關係等信息,則構成了節點間的邊。例如:用戶A邀請了用戶B和用戶C,那麼圖中用戶A和B、A和C之間則各有一條「邀請」邊。同理,若用戶B和C共用了同一個設備,那麼圖中B和C節點間則鏈接一條「設備」邊。值得一提的是,本文中的圖爲無向圖,所以無需考慮邊的方向。此外,圖中每一個節點(即每一個用戶)都附帶了人工提取的業務特徵。根據一些置信的專家策略、設備特徵、情報特徵等信息,少許節點帶有標註。固然,絕大多數節點並無標註信息。
近年來,圖神經網絡(Graph Neural Network,後文簡稱GNN)在處理圖結構數據的任務上取得了不錯的成績。與本文高度相關的兩種GNNs,一種是圖卷積神經網絡(Graph Convolutional Netweork,後文簡稱GCN),一種是異構圖神經網絡(Heterogeneous GNNs)。前者擅長處理標註量少的圖結構數據,不過不能區分不一樣類型的鏈接關係。後者善於處理異構圖結構數據,不過須要針對特定的圖結構設計表徵聚合機制。直接使用現有的算法,在拉新場景中每每表現欠佳。此外,傳統的有監督機器學習算法,在此類任務上也難以取得可觀的效果。
總結起來主要有如下幾個難點:
• 小圖多:在咱們的拉新裂變場景中,造成的圖網絡每每由不少小的子圖構成,90%的子圖包含的節點數在25個如下,整個圖的連通性比較差。不利於圖中信息的傳遞與共享。
• 異構圖:從上面的構圖方式可知,圖中包含各類不一樣類型的鏈接關係。如:拉新關係、網絡共享關係、設備共享關係等等。將全部鏈接關係同等對待,顯然不是最優的(甚至多是有害的)。而獨立處理每種關係則可能存在信息缺失,由於大量小規模的圖(不連通)難以反映全局的關聯信息。
• 標註少:訓練樣本中有標註數據佔比約爲5.7%。咱們使用了LR,XBGoost做爲baseline模型,但因爲樣本較少、黑樣本自然存在有偏性、未包含關聯信息等緣由,實驗效果略差於咱們提出的方法。

圖1:(左圖)展現了拉新反做弊任務同構圖中存在的大量小規模子圖;(中圖)展現了一個由多種關係鏈接的異構子圖,不一樣顏色的邊表明不一樣的鏈接關係;(右圖)展現了子圖規模的分佈狀況。

異構小圖神經網絡(HMGNN)

爲了解決上面提到的難點,咱們提出了「異構小圖神經網絡」算法(Heterogeneous Mini-Graph Neural Network,後續簡稱HMGNN)。其中小圖(mini-graph)指拉新場景中存在的大量小規模子圖。HMGNN首先引入了「超點」的概念,將零散的小圖鏈接起來,便於節點間的信息傳遞與共享;而後引入了注意力機制,以區別不一樣鏈接關係之間的重要性;最後,透傳原始特徵有效防止了梯度消失或爆炸。

構建超圖(Hyper-Graph)
零散的小圖不利於圖中節點間的信息共享,所以HMGNN在真實的節點和邊的基礎上,加入了「超點」(hyper-node)及更多的邊構成超圖(hyper-graph)。每一個子圖都會生成一個虛擬的超點,其特徵向量是子圖中全部的節點的特徵向量的平均值。所以,超點能夠看做整個子圖的表明。
爲了完成超圖的構建,咱們還須要新增兩種邊:超點和普通點之間的邊、超點和超點之間的邊。首先,將超點與所屬子圖中每一個普通節點鏈接起來。這麼作保證了信息傳遞的無偏性。而後,超點之間使用kNN算法,找到與每一個超點最類似的k個超點,也創建起鏈接。這樣,整個圖的聯通性就大大提高了,節點間的特徵能獲得更充分的傳播,圖2描述了超點的生成過程。

圖2:超點的生成過程。圖中展現三種類型的邊,超點之間的邊(紅色)、普通點之間的邊(灰色)、超點和普通點的邊(綠色)。
咱們在論文中證實了,上述過程構建的超圖在很大機率是聯通的。而且該過程可經過控制kNN算法的超參數k,控制超圖的聯通程度。

異構圖卷積
拉新場景的圖結構包含多種邊的關係,不一樣的關係的強弱、造成的拓撲結構、與標註的相關性等都不同。因而HMGNN使用多種關係,創建了多個圖,再利用注意力機制,把多個圖的結果聚合起來。這樣模型就能學習到不一樣關係圖的權重。圖3描述了注意力機制的引入方式。
在模型訓練時,HMGNN在每一個卷積層的輸出中,加入了原始特徵矩陣,一塊兒做爲下一卷積層的輸入。這種相似於ResNet的作法,在使用較多卷積層的模型中,可以有效防止梯度消失或爆炸,在實際實驗中也取得了更好的分類效果。圖3也描述了原始特徵的透傳過程。

圖3:HMGNN的總體架構。左邊部分闡述了超點的生成過程。咱們將不一樣子圖的超點構成的特徵矩陣,拼接到原始的特徵矩陣上,做爲神經網絡的輸入特徵矩陣。中間和右邊部分闡述了基於注意力機制的異構卷積過程。咱們在每一個卷積層透傳了原始特徵矩陣,防止梯度消失或爆炸。

效果


愛奇藝業務數據集
在愛奇藝某業務的數據集上,咱們對比了線性模型、樹模型、圖卷積模型和咱們的HMGNN模型。下表展現實驗數據,從各項指標來講,HMGNN都優於其餘模型。


Cora數據集
基於公開數據集Cora,咱們對比了原始GCN模型與HMGNN的效果。從訓練收斂速度和準確率來看,HMGNN都要優於GCN。


圖4:在Cora上對比HMGNN和GCN。

總結

據咱們所知,HMGNN是第一個嘗試經過圖神經網絡對欺詐邀請進行檢測的方法。在GCN和異構圖神經網絡的基礎上,HMGNN使用超圖和異構圖卷積克服了小圖和異構圖帶來的問題。並在實際拉新場景中取得了不錯的效果。此外,咱們也在嘗試將其應用到更廣闊的場景中,好比金融反欺詐、關注&點贊反做弊等問題。
HMGNN開源項目剔除了愛奇藝相關集成部分後,核心代碼開源在GitHub上https://www.github.com/iqiyi/HMGNN。歡迎使用、報告Issues、提交 Pull-Request。
論文:Heterogeneous Mini-Graph Neural Network and Its Application to FraudInvitation Detection
開源連接:https://github.com/iqiyi/HMGNN
發表於:ICDM 2020,DLG-KDD20
也許你還想看
開源 | FASPell: SOTA高性能的簡繁中文拼寫檢查工具

本文分享自微信公衆號 - 愛奇藝技術產品團隊(iQIYI-TP)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。