title:新的基於集成學習的移動廣告做弊檢測mysql
導語:基於buzzcity數據集,咱們提出了對點擊欺詐檢測是基於一組來自現有屬性的新功能的一種新方法。根據所獲得的精度、召回率和AUC對所提出的模型進行評估。最後的模型基於6種不一樣的學習算法。咱們用剛纔說的三種指標,來證實模型是穩定的。咱們的最終模型在訓練、驗證和測試數據集上顯示了改進的結果,從而證實了它對不一樣數據集的廣泛性。算法
1.Introduction 導入
大部分都是廢話sql
1.1 Problem Formulation 問題構建
數據是用的buzzcity的數據,數據格式:http://www.dnagroup.org/PDF/FDMADataDescription.pdf
一個二分類問題,檢測流量方publisher是是否在做弊。(實際上訓練集裏面有三種label,做弊,未做弊,和不肯定)
衡量標準:resulting precision, recall and the area under the ROC curve,準確率,召回率,和AUCapp
2 Data Preprocessing and Feature Creation 數據預處理和特徵工程ide
2.1 數據預處理:
先找出有用的特徵,全部的數據爲iplong, agent, partner id, campaign ID, country, time-at, category, referrer in the clicktable and partner id, address, bank account and label in the partner table,去掉無用的,好比partner address, bank account。
合併兩個表(publisher database and click database)學習
2.2 特徵提取:
借鑑了google反做弊的特徵選擇,以及其餘的傳統方向。
對於時間而言:做弊的方法通常有,第一種一般會使用各類技巧假裝本身的活動,例如生成很是稀疏的點擊序列、IP地址的更改、從不一樣國家的計算機發出點擊等等。另外一些堅持只在給定時間間隔內產生最大點擊次數的傳統方法。針對這些,咱們會選擇1 min, 5 min, 1 hours, 3hours and 6 hours.的時間間隔,來統計他們的總點擊次數,最大點擊數、平均點擊數、偏度和方差。
實際上咱們就只會對於每個時間間隔,統計平均值,最大值,方差,偏度
測試
對於IP而言:構造五種特徵:
1.最大同IP點擊:一個IP地址最多的點擊數量
2.IP數量:就對於每個流量方,點擊它廣告的IP數量
3.每一個IP的平均點擊數量
4.熵的計算:IP點擊的熵
5.方差:IP點擊數量的方差ui
有些做弊是採用在一些ip上進行大量的點擊,因此致使方差變高。
剩下的特徵都差很少處理方式,相似於IP,一共創造了41種特徵,連接在下面:http://www.dnagroup.org/PDF/FDMAFeatures.pdfgoogle
2.3 特徵選擇
特徵選擇用了三種方法:主成分分析(PCA)、公共空間模式(CSP)和wrapper subset evaluation
https://en.wikipedia.org/wiki/Principal_component_analysis
https://en.wikipedia.org/wiki/Common_spatial_pattern
wrapper subset evaluation是貪心的選擇出一些特徵集合來進行訓練,用10-fold來進行衡量lua
3.Experimental Configuration 實驗配置
3.1 Datasets
三個集合,訓練集,從訓練集拆出來的驗證集,測試集。
訓練集中,click database有3173834個實例,每一個實例表示一個點擊。publisher database有3081個,而且有標籤標識是否在做弊。
驗證集:2689005個點擊,3064個publisher
測試集:2598815點擊, 2112 publisher.
3.2 Platform and Tools Used
i7cpu,8G內存。特徵的預處理用的matlab,數據存儲用的mysql,模型訓練用的WEKA。
3.3 Methods Used 方法使用
論文在這兒,說了一堆廢話,他嘗試了不少模型,發現決策樹最厲害,因此咱們就用決策樹了。
在咱們的數據中數據有2.336的做弊者、2.596的不肯定和95.068的未做弊,咱們面臨數據傾斜的問題。爲了解決這個問題,咱們用了smote算法來擬合出更多的反例。
用了Bagging Metacost還有 logiboost來進行集成學習。
4 Results
用acc做爲衡量標準,模型爲:
最後將6個模型取平均,就獲得了最後的答案。
基礎模型,總共就上面三種之一。
而後做者給咱們展示了,若是你不作某個環節,你就虧了的故事。
5 Discussions and Conclusion
做者總結出,做弊者通常採用更換代理,點擊間隔在1min~6hour之間的一些方法來做弊。
做者表示之後應該多用一些特徵處理方法,好比作一些交叉特徵來處理。
特徵工程方面:
樣本不均勻:過抽樣和欠抽樣,smote。或者構建小的數據集,相似隨機森林。 在模型融合方面:做者太過於粗糙,實際上還有stacking,blending等方法https://mlwave.com/kaggle-ensembling-guide/