論文｜螞蟻金服亮相數據挖掘頂會KDD 2018，這些你不可錯過！

時間 2019-11-15

標籤論文螞蟻亮相數據挖掘 kdd 這些不可錯過简体版

原文原文鏈接

小螞蟻說：

一年一度的KDD今年於8月19日至23日在英國倫敦開幕。做爲數據挖掘的國際頂級會議，每一年都會吸引包括谷歌、微軟、阿里巴巴等世界頂級的科技公司參與，螞蟻金服也不例外。node

KDD的全稱是ACM SIGKDD Conference on Knowledge Discovery and Data Mining。KDD 2018在倫敦舉行，今年KDD吸引了全球範圍內共 1480 篇論文投遞，共收錄 293 篇，錄取率不足 20%。螞蟻金服也有多篇文章入選。git

問題來了，這些論文地址在哪裏下載？請關注本帳號「螞蟻金服科技」，在公衆號對話框內回覆「KDD」，便可得到論文下載包哦！祝學習愉快！github

此外，在過去的一年中，螞蟻金服也屢次亮相國際各種頂級學術會議，包括AAAI，NIPS，ICML，CVPR，ACL（可直接點擊連接閱讀哦）等等，爲學界帶來了諸多結合實際業務場景的創新研究和應用。對螞蟻金服而言，在頂級學術會議上發佈論文，有兩方面的意義，一個是推動人工智能最前沿研究的發展，同時緊密地把學術與應用場景結合起來。而螞蟻金服擁有海量的應用場景，這些技術從研究到落地可以真正造福數以億計的用戶，真正爲世界帶來平等的機會。算法

本文分別解讀了螞蟻金服本次入選KDD的三篇優秀論文，給你們分享數據挖掘+人工智能是如何保護你們帳戶安全、識別保險欺詐、對用戶進行個性化推薦的。一塊兒來學習一下吧~安全

1、「誰吃了運費？」基於圖學習的運費險詐騙識別服務器

論文標題：網絡

Who-Stole-the-Postage？Fraud Detection in Rrturn-Freight Insurance Claims架構

做者：梁琛，劉子奇，劉斌，周俊、李小龍app

論文地址：框架

https://github.com/chenlianMT/Who-Stole-the-Postage-/blob/master/return-freight-insurance.pdf

1.1 前言

在線購物中，運費險幾乎成了剁手必備的訂單伴侶——它能讓買家放心購物，不用擔憂「貨不對板」想要退貨時還須要承擔退貨的運費。然而大規模的運費險單量，也催生了很多的騙保產業。

本文在傳統運費險風控的基礎上，詳細介紹了螞蟻金服人工智能部如何用圖學習的方法，抓取更多的騙保行爲。

常常在網上購物的朋友，可能對運費險已經很熟悉了：買了衣服卻有色差、衝動消費以後卻後悔、在其餘店看到了更便宜的商品，在這些情境下，退貨是買家常見的訴求。隨着網上購物的興起，退貨的運費究竟由買家、仍是賣家出資，爭議量巨大，單純依靠客服小二解決這些爭議是不現實的。爲了保障買家對購物行爲的「後悔權」，運費險應運而生。

購買運費險後，在確認收貨前，買家能夠要求退貨。退貨所須要的運費，須要承保公司來承擔。大部分的運費險，購買一單隻須要幾毛錢，但退回的運費卻有幾塊錢。若是實際退貨沒有發生，或實際退貨所需運費成本低於保險公司的賠付額，用戶能夠獲得數倍收益。針對運費險的騙保活動也應運而生。

因爲天天運費險理賠單量級巨大，人工核賠每一個理賠單是否存在惡意騙保行爲是不可行的。傳統的運費險風控，主要經過一組策略，在線對單個帳戶的風險等級進行評估。基於策略、着眼單個帳戶，每每不能覆蓋全部的騙保活動；本文將重點放在了構建帳戶關係網絡（即關係圖），用神經網絡的方法，挖掘關係圖中的信息。

本文將騙保識別問題，定義爲一個帳戶的二分類問題，二分類的標註來自運費險風控的策略。在解決這個問題的過程當中，咱們發現，行爲特徵（購物行爲、瀏覽行爲等）不能有效地區分「正常帳戶」和「騙保帳戶」。這主要是由於騙保的手段是專業的、變化的、有意遮掩的。然而，帳戶之間的關係，每每更加穩定，更加難以隱藏。可是如何構建帳戶之間的關係，讓「正常帳戶」和「騙保帳戶」的區分度更高呢？

如下是咱們嘗試的三種構圖方式：

轉帳圖中，每一個節點均爲一個帳戶，刻畫了支付寶中的轉帳行爲。設備共用圖中，包括帳戶和設備兩種節點，若是一個帳戶曾在某設備上登陸，則這個帳戶和設備之間就有一條邊。

能夠觀察到，設備共用圖中「正經常使用戶」和「騙保團伙」的關係模式區別較大。咱們最終選擇了設備共用圖做爲構圖對象。

在拿到圖和行爲特徵後，一個天然的選擇是Graph Neural Networks (GNNs) [1]算法。GNNs是一類可以學習圖中節點信息的算法。GNNs算法中的每一個節點，經過學習本身鄰居的特徵，不斷循環，更新本身本來的特徵。在幾輪更新以後，圖中的節點就會包含周圍不少鄰居的信息。即在第k次更新中，節點v的信息爲：

其中u爲節點v自己或它的鄰居，AGG爲學習鄰居信息的公式（好比直接相加等），sigma爲激活函數。

在運費險工做中，咱們使用了基於GNNs思想的GeniePath算法 [2]。GeniePath自適應的選擇有價值的鄰居信息作信息集成AGG，好比選擇與本身節點類似的鄰居節點。即：

好比有三個互相關聯的帳戶，其中兩個常常深夜活動，且註冊時間極短，另一個帳戶行爲正常。那麼，咱們能合理地認爲前兩個帳戶之間的關聯性更強。

在運費險數據上，用GeniePath圖學習方法、node2vec [3]無監督圖學習方法、GBDT [4] 非圖學習方法進行對比試驗，發現GeniePath的F1更好，即GeniePath對策略的擬合更好。同時，GeniePath額外抓取的黑產，佔策略抓取黑樣本的35%以上，黑樣本總數提升了至關可觀的數量。通過專家採樣評估，真實黑樣本的精度高於40%，相比GBDT方法有20%以上的提高。

1.2 總結

至此，咱們總結了運費險欺詐問題中的以下問題：（1）如何構圖；（2）如何高效判別圖中的分類；（3）如何評價各算法的有效性。但願本文的思路能對其餘反欺詐工做帶來必定的參考。

1.3 參考文獻

[1] Hamilton W, Ying Z, Leskovec J.Inductive representation learning on large graphs. In Advances in Neural Information Processing Systems 2017 (pp. 1025-1035).

[2] Liu Z, Chen C, Li L, Zhou J, Li X, Song L. GeniePath: Graph Neural Networks with Adaptive Receptive Paths. arXiv preprintarXiv:1802.00910. 2018 Feb 3.

[3] Grover A, Leskovec J. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining 2016 Aug 13(pp. 855-864). ACM.

[4] Chen T, Guestrin C. Xgboost: A scalable tree boosting system. InProceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining 2016 Aug 13 (pp. 785-794).ACM.

2、GeniePath: 會自動過濾多度「鄰居」的圖神經網絡

論文標題：

GeniePath: Graph Neural Networks with Adaptive Receptive Paths

做者：劉子奇、陳超超、李龍飛、周俊、李小龍、宋樂

論文地址：

https://arxiv.org/abs/1802.00910

2.1 概述

本篇論文主要目的是介紹一種新的圖神經網絡(Graph Neural Networks, GNN)方法，GeniePath[4]。用一句話說：GeniePath沿用GNN的計算框架，其特色在於會根據優化目標自動選擇有用的鄰居信息，來生成節點特徵（embedding）

2.2圖神經網絡(GNN)是什麼？能作什麼？

2.2.1 GNN能作什麼？

一個機器學習任務是這樣的：咱們假設有個上帝才知道的ground truth函數

，上帝隨機生成一些數據

。咱們只能觀測到數據

，可是不知道那個ground truth函數是什麼。咱們但願使用機器學習算法從觀測到的數據

學一個函數

，但願

能夠在unseen數據上work的好，即

逼近

。那麼，咱們要看一個機器學習模型

是否能作某事、或者能比另外一個模型

作的好，能夠從兩個點出發：

是否在測試數據上work的比

好？這是一個經驗指標，只能經過更多的數據和實驗來驗證；

2.若是咱們提早就知道上帝才知道的那個函數，那麼咱們看和誰能表達的解空間？誰能表達那個最優的解空間，就更有可能獲得更優的解。（注：實際中即使能表達最優解也不必定能解出最優解，涉及優化理論，這超出本文範圍）。

那麼好，咱們下面先找個栗子，經過方式2驗證：假設咱們隨機生成不少聯通子圖，即

。咱們用上帝知道的那個函數（一個節點的打標

是節點

所在聯通子圖的大小，即所在聯通子圖的節點數目）構成的一個訓練數據集

。對於機器學習算法來講，算法只是給定了這些訓練數據，並不知道這些節點上的打標是怎麼生成的。咱們但願經過訓練數據學一個函

，可以在新的待預測圖數據上預測的好，即逼近

。

例如，下圖中咱們的訓練數據有5個節點以及對應的打標，咱們有可能學一個GBDT？一個DNN？經過構建適當的特徵，並對測試數據作預測嗎？

圖1. 聯通圖例子。左側是訓練集，包括5個節點，每一個節點的打標是該節點所在聯通子圖的大小。右側是測試數據。

答案是：這比較難。由於：（1）這些方法都是單純的考慮一個節點的特徵；（2）怎麼把拓撲中相關的節點信息作成特徵很難。

是否圖神經網絡(GNN)方法能夠？咱們先來看看以下計算過程，而後引入圖神經網絡的計算：

圖2.聯通圖例子使用圖神經網絡計算

咱們進行了如下幾步：

（1）先對訓練數據構建鄰接矩陣（注意：須要帶自環）；

（2）對鄰接矩陣作歸一化（是對角陣，每項表明節點鄰居數）

（3）乘無窮次獲得穩態轉移機率；

（4）element-wise對矩陣每項作step function，即 [0 if <=0 else 1]

（5）按行求和，最終咱們獲得的向量即對每一個節點的打標。那麼咱們能夠總結這個計算過程爲：

，其中

。這個函數有惟一參數

。咱們一開始隨機初始化

，而後不斷計算損失

，就能夠優化

。那麼這個函數和圖神經網絡有什麼關係呢？

2.2.2 GNN的計算模式

回顧上一小節，之因此函數

可以解決聯通圖大小計算問題，最關鍵一步就是迭代

屢次（設爲次）。經過這個迭代，GNN能夠傳播

跳之內節點的信息（在上面的栗子裏面是爲了計算節點之間傳播次是否可達）。而這也是圖神經網絡計算的關鍵所在。

下面咱們引入一些重要的標記：圖神經網絡模型的只有兩個輸入：節點之間構成的鄰接矩陣，以及節點對應的特徵

，其中

表示節點數目，

表示特徵維度。即

。

下面咱們看看經常使用的圖神經網絡的表達式：

(1)其中上標表示第次迭代；表示個節點的維隱含特徵（embedding），其中對應個節點的維原始特徵；是模型的參數；

表明對的某個固定變換，好比

。這是一個較爲強大的非線性的表達，由於每次迭代咱們都增長了非線性激活函數。

至此，若是式(1) 只保留最後一層激活函數，以及作無窮次迭代，當輸入特徵數據人工設爲

N維的one-hot特徵矩陣），參數經過優化估計爲

時，式(1) 能夠獲得最優的目標函數

。

至此，圖神經網絡GNN經過這種迭代的計算範式刻畫圖中節點之間的關係：

2.2.3 小結

經過上面的例子，咱們展現了一個圖神經網絡如何計算一個簡單的任務。在這個例子裏，GNN的解空間是DNN等方法沒法觸及的。想必你們可以get到一點東西。咱們有以下總結：當計算目標須要節點特徵、節點所在圖的拓撲信息時，咱們可能須要藉助圖神經網絡的能力。

2.3 GeniePath的特色——GNN經典方法對比

目前全部的圖神經網絡方法都基於以下框架，作T次迭代，至關於每一個節點拿本身走T跳可達的「鄰居」節點，來作傳播和變換，最後的被用來直接參與到損失函數的計算，並經過反向傳播優化參數。

注意：各個方法的區別僅在於For循環內部的不一樣，即encoding過程的不一樣；全部的方法都不限制損失函數的形態，因此咱們不會去比較這部分。

2.3.1 經典方法解決如何AGG鄰居的問題

即定義不一樣算子整合和變換鄰居信息，生成節點特徵。

2.3.2 GeniePath解決AGG哪些鄰居的問題

以上圖神經網絡存在的共同特色是：這裏面定義的AGG算子，是對T跳內全部鄰居作AGG，且以固定的權重作AGG。咱們稱計算一個節點的embedding所需的「鄰居」爲感知域。那麼咱們的問題是真的須要對T跳內全部的鄰居都作AGG嗎？

咱們先看看這些操做是怎麼對T跳鄰居作AGG的。以AGG = mean operator爲例，即：

若是去掉激活函數(便於分析和展現)，迭代次，咱們能夠獲得以下線性代數表達：

那麼其實該計算定義的感知域就是

。什麼意思呢？就是該感知域徹底定義了每一個節點最終embedding是由哪些鄰居AGG生成的，且他們的貢獻分別是在構好圖時就已經定義好的。回到以前的例子(圖1)，就至關於：

上面的例子告訴咱們，對於每一個節點，T跳能達到的鄰居節點都有用，且以上面的權重衡量。

咱們真的須要對T跳內全部鄰居都在這樣預先定義好的感知域上作訓練和預測嗎？答案是：其實這可能並不最優。緣由有不少，好比：圖數據每每是有噪聲的。好比下面關於帳戶安全的圖數據。

光憑圖信息，咱們會認爲綠色未知風險帳戶和這麼多「高危」帳號有關係，確定也是「黑」帳號。然而實際中，因爲用戶刷機、共享共同IP代理等會使得圖數據攜帶大量噪聲。咱們不但要看拓撲信息還要看節點的行爲特徵。而經典的GNN方法只會根據拓撲信息選擇鄰居並AGG生成特徵，不會過濾和篩選有價值的鄰居。

GeniePath關心在AGG的時候到底應該選取哪些重要的鄰居信息、過濾那些不重要的節點信息。示例見圖4，以黑色節點爲目標節點，GeniePath並不AGG全部2跳鄰居信息，而是有選擇的選某個子圖。

圖4.自適應的感知域示例

這樣，問題變成了如何爲每一個目標節點探索某個重要的子圖。GeniePath經過定義兩個parametric函數：自適應廣度函數、和自適應深度函數，共同對子圖進行廣度、深度搜索。其中自適應廣度函數限定朝哪一個方向搜索重要節點，自適應深度函數限定搜索的深度，便是1跳鄰居信息就足夠了，仍是須要多跳鄰居信息。

如何作AGG，這個GeniePath並不關心，固然，咱們可使用以前GraphSAGE定義的有用的AGG。即GeniePath和經典GNN方法正交。

這裏咱們總結GeniePath的算法爲以下框架：

實現中，咱們使用一個attention網絡表達自適應廣度函數、使用一個LSTM-style網絡表達自適應深度函數

。

2.3.3 GeniePath的效果

GeniePath在一些公開數據集上表現出的效果頗有競爭力，例如：在一個著名的蛋白質網絡Benchmark數據上，相比Bengio在2017年最新的graph attention networks [5]，將F1提高了20% (在不使用resnet[6]的條件下)、7%（使用resnet）。詳情請戳下面論文連接：

https://arxiv.org/abs/1802.00910

這裏，咱們展現了在一個蛋白質網絡中學習到的感知域，和用GCN預約義好的感知域的對比：

圖5.GCN的感知域

圖6.GeniePath的感知域

圖五、6中，咱們展現了以黑色節點爲目標節點（GCN分類錯而GeniePath分類對的樣本點），其2跳鄰居造成的感知域。綠色邊表明權重小於0.1的邊，藍色表明權重爲0.1~0.2之間的邊，紅色表示權重大於0.2的邊。從兩個模型對感知域的對比來看，很明顯，GCN將大部分鄰居都認爲是差很少同等重要的，而GeniePath則選出其中很是重要的紅色的路徑（鄰居）。

2.4總結

GeniePath做爲一個通用圖神經網絡算法已經在螞蟻金服的風控場景實際使用，並獲得較理想的效果，極大地提升了支付寶保護用戶帳戶安全的能力。

2.5 參考文獻

[1] Dai H, Dai B, Song L. Discriminative embeddings of latent variable models for structured data. InInternational Conference on Machine Learning 2016 Jun 11 (pp. 2702-2711).

[2] Kipf TN, Welling M. Semi-supervised classification with graph convolutional networks. arXiv preprintarXiv:1609.02907. 2016 Sep 9.

[3] Hamilton W, Ying Z, Leskovec J.Inductive representation learning on large graphs. In Advances in Neural Information Processing Systems 2017 (pp. 1025-1035).

[4] Liu Z, Chen C, Li L, Zhou J, Li X, Song L.GeniePath: Graph Neural Networks with Adaptive Receptive Paths. arXiv preprintarXiv:1802.00910. 2018 Feb 3.

[5] Velickovic P, Cucurull G, Casanova A,Romero A, Lio P, Bengio Y. Graph attention networks. arXiv preprintarXiv:1710.10903. 2017 Oct.

[6] He K, Zhang X, Ren S, Sun J. Identity mappings in deep residual networks. In European conference on computer vision 2016 Oct 8 (pp. 630-645). Springer, Cham.

3、分佈式協同哈希算法及其在螞蟻金服中的應用

論文標題：

Distributed Collaborative Hashing and Its Applications in Ant Financial

做者：陳超超、劉子奇、李龍飛、周俊、李小龍

論文地址：

https://arxiv.org/abs/1804.04918

3.1前言

協同過濾，特別是矩陣分解模型，已經在個性化推薦中廣爲應用。使用它來作個性化推薦的主要過程以下：（1）線下訓練階段，根據已有的用戶——物品交互歷史，學習用戶和物品的潛在偏好向量；（2）線上打分排序階段，根據學習好的用戶和物品的潛在偏好向量，來預測未知的用戶——物品偏好。如圖1所示。

圖1：矩陣分解模型過程

正所謂「天下武功，惟快不破」，在推薦系統中，模型的時率性尤其重要。從圖1可知，在實際應用的推薦模型中，模型效率主要包括線下的模型訓練效率以及線上的用戶——物品打分排序效率。而現有的因子分解模型主要存在如下兩個憋端：

（1）線下模型訓練較低，現有的因子分解模型，大多都是基於單機或簡單的多機並行實現的，在用戶和物品量級很大的時候，將會很難完成訓練，或者訓練的效率極低；

（2）線上進行推薦的時候，首先須要根據用戶——物品的潛在向量計算用戶——物品評分，而後對評分進行排序並推薦，效果低下。

本文中，針對以上兩個弊端，咱們提出了兩種相應的解決方案，即：

（1）使用參數服務器分佈式學習框架，來進行線下模型的訓練，能支持大規模用戶和物品，同時能快速完成模型的訓練；

（2）使用哈希矩陣分解取代原有的實數向量矩陣分解，獲得用戶和物品潛在哈希向量，即向量中每一個元素都是二元值，線上打分能夠經過哈希表查找或者計算機異或等操做迅速完成。

咱們將介紹模型訓練，基於參數服務器框架實現的細節，對比實驗，及在螞蟻金服中的應用。

3.2模型介紹

3.2.1 符號定義

咱們使用

來表示用戶i的K維哈希向量，使用

來表示物品j的K維哈希向量，表示訓練集的用戶集合，表示訓練集的物品集合。

3.2.2 哈希矩陣分解模型

用戶和物品的哈希向量表示用戶和物品的各自偏好，他們之間的漢明距離表示用戶對物品的偏好程度，表示以下：

爲了學習用戶和物品的哈希向量，可使用如下形式的目標函數：

這裏，

表示Frobenius Norm。以上形式因爲和是離散值，很難直接求解。所以，能夠採用二步法進行求解[1]。

首先，咱們把解空間放鬆，從原始的

放鬆到實數空間

，即可以使用隨機梯度降低法求解，梯度以下：

使用隨機梯度降低法更新公式以下：

接着，即可以將求解好的實數向量，映射回哈希向量，方式以下：

3.2.3 基於參數服務器用隨機梯度降低法進行模型分佈式實現

參數服務器的工做理念以下圖所示：

這裏Coordinator負責模型的調度；Server負責存儲及更新模型，這裏就是用戶和物品的潛在向量

和

；Worker負責加載數據並求梯度。參數服務器的工做理念能夠參見[2]。

圖2：參數服務器架構圖

同時，在模型更新過程當中，爲了防止模型跑飛，咱們會在Server上對模型進行修正，方式以下：

這裏，和

分別表示用戶和物品潛在向量在t時刻的值。在實現過程當中，咱們使用的是阿里和螞蟻自主研發的鯤鵬分佈式學習架構，參見論文[3]。咱們的算法名稱是Distributed Collaborative Hashing（DCH），整個算法更新的框架以下：

圖3

圖4

3.3實驗結果及分析

咱們在公開數據Netflix以及螞蟻本身的數據Alipay上作了實驗，採用DCG和Precision兩個評價指標。同時對比了如下幾個方法：

Matrix Factorization (MF) [4]
MFH，即便用MF獲得用戶和物品實數潛在向量以後，使用公式(6)映射成哈希向量
Distributed Factorization Machine (DFM)，即便用參數服務器模型實現的[5]
DFMH即便用DFM獲得用戶和物品實數潛在向量以後，使用公式(6)映射成哈希向量

幾個算法對比結果以下：

圖5

圖6

圖7

圖8

從圖3和圖5中能夠看出，咱們提出的DCH模型能夠達到與現有模型效果至關的結果。從圖6能夠看出，咱們的模型線下訓練的時長獲得了成倍的縮減，同時從圖8能夠看出，咱們的模型在線上打分上，速度也比使用實數向量的方法有極明顯的提高。綜合而言，咱們的模型經過參數服務器模型，大大下降了線下模型訓練時間。同時，咱們提出的模型經過犧牲微小的精度，來節省大量的線上打分排序時間。

3.4在螞蟻的應用

咱們提出的DCH方法，能夠用於根據用戶——物品的行爲歷史，產出用戶和物品的哈希向量，該向量有兩個用途：（1）能夠直接使用哈希表查找等方式找到與某用戶最類似的物品，用於召回或推薦；（2）該哈希向量表示了用戶和物品的偏好特徵，能夠直接做爲高階的特徵送到其餘模型（如邏輯迴歸）中使用，進一步提高模型的效果。所以，能夠被普遍的應用於螞蟻的各個推薦場景中去。

3.5參考文獻

[1] Ke Zhou and Hongyuan Zha. 2012.Learning binary codes for collaborative filtering. In Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM,498–506.

[2] Mu Li, David G Andersen, Jun Woo Park,Alexander J Smola, Amr Ahmed, Vanja Josifovski, James Long, Eugene JShekita, and Bor-Yiing Su. 2014. Scaling distributed machine learning with the parameter server. In OSDI. 583–598.

[3] Jun Zhou, Xiaolong Li, Peilin Zhao, Chaochao Chen, Longfei Li, Xinxing Yang, Qing Cui, Jin Yu, Xu Chen, Yi Ding, et al.2017. KunPeng: Parameter Server based Distributed Learning Systems and Its Applications in Alibaba and Ant Financial. In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 1693–1702.

[4] Andriy Mnih and Ruslan Salakhutdinov.2007. Probabilistic matrix factorization. In Advances in Neural Information Processing Systems. 1257–1264.

[5] Mu Li, Ziqi Liu, Alexander J Smola, andYu-Xiang Wang. 2016. DiFacto: Distributed Factorization Machines. In Proceedings of the Ninth ACM International Conference on Web Search and Data Mining.ACM, 377–386.

— END —