轉自這裏算法
流量做弊瀰漫在互聯網廣告行業中,已經成爲公開的祕密。數據庫
黑格爾的哲學命題」存在即合理「,每每被人濫用,其原意是「合理即合符某種規律」,經過黑格爾辯證法,不存在不變的東西,這個命題也能夠解釋成「凡是存在的,都是應該會滅亡的」。 不知道虛假流量何時會滅亡,那時這篇文章就失去意義了,不過既然這篇文章如今存在,那麼就是合理的(rational)。瀏覽器
今天的話題集中在移動流量做弊上面,做弊(反做弊)形式和技術與PC做弊不盡相同。PC的用戶標識一般使用瀏覽器的Cookie;而移動的標識一般是IDFA(蘋果),Google Ads ID(海外Android),IMEI(國內Android)。移動App有更多信號(機會)辨別真僞,PC瀏覽器的限制會比較多。安全
這篇文章就膚淺介紹一下虛假流量後的一些潛規律,不少分析都很淺顯,所以叫作淺潛規則。服務器
1. 虛假流量的術語微信
本文聊的做弊流量,有好多種說法,側重點也不盡相同。架構
做弊流量(Fraud Traffic) :大白話,容易明白,就是騙人的流量機器學習
非人爲流量(No-Human Traffic ): 這種流量特指一些Bot流量,機器模擬的;對於一些劫持的流量,有些灰色地帶,所以不夠準確。模塊化
非激勵正常流量(No-Incentive Traffic):有些流量雖然是人爲流量,但經常是由某種誘惑而來(例如不合理頁面設計,獎券,紅包,遊戲點卡等),所以激勵流量一般轉化效果比較差。函數
無效流量(Invalid Traffic) :爲了規避過於敏感的做弊(Fraud)而使用的術語,這樣不容易得罪人,無效流量中既有故意爲之,也有無心爲之的。
異常流量(Abnormal Traffic) :相似於無效流量,強調流量的異常性。
這些術語之間並無太多包含關係(或不必嚴格細分),更多的是用在不一樣的場景和角色。例如,有些研發人員關注No-Human Traffic(Bot Traffic) ;有些效果監測的公司更加關注計費的流量,所以願意使用invalid traffic;早期,這些流量都稱爲Fraud Traffic,所以做弊流量也是一種經常使用說法。
2. 移動廣告的業務模式圖:
有錢的就地方就是做弊,常在河邊走,哪有不溼鞋?看看錢是如何流動的就能夠理解其中利益關係。錢流的上游是付錢的主,下游的機構總想放大收入,那麼在付錢主的所能容忍範圍內最大化收入就是各個環節優化的目標。這是一個在限制條件下,單優化目標的問題。
常見流量做弊的動機:
1.媒體:製造虛假流量,提高收入
2.廣告代理/銷售:運營虛假流量,保證合同,提高收入
3.交易平臺:對虛假Supply審查不嚴格,提高收入
4.用戶:爲得到激勵(紅包,點卡等)而產生低(無)效果流量
5.廣告主:惡意消耗競爭對手的預算
3. 移動廣告目前的虛假流量比例
因爲虛假流量過於複雜和敏感,你們在報數的時候都是很是謹慎當心的。儘管如此,最後你們報的數字千差萬別,所以沒法考證各個數據的置信度,你們參考一下就好。
1.ANA( Association of National Advertisers): 「聲譽差的交易平臺做弊流量達到25-50%,聲譽好的一般低於10%」。
2.AppFlyer:2016年,AppLift的報告指出34%的移動流量爲有風險的虛假流量(Risk of fraud, 22%可疑,12%高風險) 。Android虛假流量比例大於iOS,系統版本約高,虛假比例越低。
2.秒針:2016年垂直網站與網盟媒體異常流量佔比最高。其中,垂直類媒體曝光異常大幅增至 24.93%,點擊異常中網盟類媒體最爲明顯,佔比高達 71.07%。
3.AdMaster :2016年整年無效流量總體佔比爲30.2%;下半年出現小幅度惡化現象,無效流量增長3.7%;
4.移動虛假流量的分類
虛假流量有不少種分類,各類分類都會有灰色的領域,下面我試圖用做弊的基本原理方式來分類,並且主要是針對移動的場景。更加全面和系統的分類,能夠參考劉鵬老師的《互聯網廣告做弊十八般武藝》。
另一種分類能夠按照設備和人爲的四象限分類
5. 移動反虛假流量的模型
在討論如何對付移動虛假流量的方法以前,咱們先看看移動做弊的一些主要黑技術,作到知己知彼。
移動做弊中涉及不少黑技術,其中包括一下一些:
模擬器:BlueStacks, AndyWin, GenyMotion
Spoofer: 不斷的修改機器的IP , IMEI, MAC等
Proxy: 網關,修改ISP, IP, UA , 設備類型等
蘋果: 沒有模擬器,主要經過硬件和軟件模擬
激勵流量(incent Traffic ): 真實人流量,可是轉化率差的流量
...
對於如何防範移動虛假流量,這確實是一個複雜的問題。並不是沒有防範做弊的高端技術,也不是由於這個問題不夠嚴重,最主要的緣由有三個。
精準打擊反做弊的成本比較高
各類玩家的利益分配緣由
做弊者的受益高和風險低,大部分狀況下,做弊者不會受到任何懲罰。
例如,最近友盟+在法院起訴某家App刷量公司,理由是影響了友盟統計計算的正確性和公正性。目前法院並無斷定,我也不得知其訴訟的合理性。打個比方,有一個刷牆公司把路上全部廣告牌都刷成某家公司,而後有一個品牌影響力排名公司去控告這個刷牆公司,嚴重影響了它的品牌排名公正性。總感受這個邏輯,不算太對。我也確實很是討厭App刷量公司,可是從哪一個角度去批判和懲罰他們,確實值得法律法規上更多的討論。
不聊倫理和法規,聊聊技術吧,我以爲技術上能夠按照以下模型來對付虛假流量,這裏特指移動端。
硬件:手機擁有更多的硬件信息,所以經過硬件信息進行虛假流量的防範,能夠防範經過非手機(即Bot,服務器等)的虛假流量。雖然,如今手機系統提供了有一些標準函數能夠得到硬件信息,例如IMEI,MAC等,但這些函數很容易被一些通用軟件工具所攻破。另外,這個硬件標識的信息,也沒法在服務器端獲得有效校驗。所以,在虛假流量的鬥爭中,第一步每每就是識別流量的來源,是真實手機,仍是模擬器,服務器模擬等工具。
規則策略:規則每每是最簡單有效的防範機制,例如,對於第一次訪問全新流量,將虛假流量的可能性設置爲高。對於天天多餘X次的有規律訪問,堅定抵制等等。規則有不少不少,不斷的增長,修改,發展到最後,規則的匹配次序也成了一門藝術了。對於一些初級的造假者,每每會落到這些規則中。
機器學習:機器學習就是經過一些訓練數據集合訓練出一個分類器,對於一些特徵,訓練出一些權重信息,然後用於流量的分類識別上。作虛假識別的團隊不少時候在這個方向會越作越深,使用更多的特徵,使用更多數據,使用更加及時的數據,嘗試更多的模型。這個領域工做很「苦」,作嚴格了,收入可能受影像,作寬鬆了,廣告主投訴ROI降低,這種平衡有點裏外不是人。
智勇雙全:有些做弊並不是必定經過死板的技術手段完成的,其實有不少五花八門的方法。舉例來講,經過加大對於媒體的懲罰力度,能夠提升媒體的做弊成本,從而下降做弊率。另外,還有一種有趣的反做弊方法,叫作Honey Ad(有時也叫Bluff Ad),這些廣告有些特色(例如,預期點擊率很低),經過觀察點擊率是否和預期同樣,能夠判斷流量是不是機器流量(機器流量沒法判斷這些廣告的貼點)。
6 識別虛假流量的技術流派
這一部分主要是集中在經過機器學習的辦法辨識虛假流量的技術,有一大部份內容能夠在相關的論文中找到。
6.1 分類方法
大部分算法工程師在處理虛假流量都是從分類技術開始的,構造一個分類器,找各類各樣的特徵,找到一些虛假流量的(例如轉化率異常)訓練數據。這種方法對於對於虛假流量的樣本很是依賴,不一樣的樣本很容易訓練出不一樣的模型,容易過渡擬合。 對於新的虛假流量模式,不容易及時發現。
常見的有邏輯迴歸和貝葉斯方法,能夠參考以下論文
《Measuring and Fingerprinting Click-Spam in Ad Networks》Vacha Dave etc.
6.2異常檢查(Anomaly-Based Detection)
學術上有不少論文,討論經過聚類的方案識別異常流量,在移動端,能夠經過跟蹤某一個用戶標識的歷史行爲,各類上網行爲,廣告請求行爲,瀏覽行爲,特別是跨媒體的使用狀況,以辨別這個流量是不是正常手機的使用軌跡。
基於歷史信息和行業平均水平進行異常分析
基於時間的變化,發現一些突變點
這一技術在金融和交易的反欺詐,用的很是多,技術也很是繁多
經常使用方法能夠聚類,分類或者內容分析;
《Using Co-Visitation Networks For Classifying Non-Intentional Traffic》 Ori Stitelman et al. Dstillery 2013.
6.3 APP的廣告做弊的自動化檢查
市面上有不少APP,那些APP是製做虛假流量的來源?有沒有什麼自動的檢查方法? 微軟有一篇論文就是介紹這方面的工做,經過自動運行APP,分析APP的廣告狀況:太多廣告,廣告大小太小,重疊廣告等等。
2014,《DECAF: Detecting and Characterizing Ad Fraud in Mobile Apps》
6.4. 審計(Audit)
審計是一種傳統的反欺詐方法,也是有效的,對於調查一些刷量問題也是有直接幫助的。
當有些在某些媒體(publisher) 點擊發生點擊
廣告平臺/廣告主向媒體發送一些審計的請求,確認以前受到的點擊的有效性(時間點,基本信息),然後進行對比。
6.5 僞廣告驗證(Honey Ads)
廣告平臺發送一些小比例的廣告,例如一些信息提示,按道理,這些提示內容並無讓用戶Click的意圖。
若是這些僞廣告的點擊率,仍然很高,像其它的廣告點擊率同樣高,說明這些流量有問題。
6.6 設備ID的真僞辨別
在移動設備上,對於設備ID的辨別能夠極大的幫助識別虛假流量。有兩件事須要確認,第一,這個ID是有效的ID,第二,這個廣告請求確實是來自這個ID所在的設備。
移動設備ID也比較多,國內安卓以IMEI的MD5/SHA256爲主;IMEI一般也會帶有製造商的一些基礎信息。
如何肯定這個ID是來源於真實的設備,這就須要利用硬件的技術,或則經過歷史數據的一些分析來看。例若有一個IMEI ,請求的IP來源忽悠不定,上午的IP在鄭州,下午在杭州和南寧等,或則不熟悉的地方,那麼這些廣告請求中,一般有虛假的成分。所以,對ID進行辨別,對常見ID能夠採用輔助的技術進行識別,包括訪問頻率,IP範圍,瀏覽行爲,搜索行爲,APP事情狀況等等,訪問時間等,並且能夠經過數據鏈的方式來斷定請求的真實性。
6.7 分享一些反欺詐的論文
這裏推薦老東家的一篇論文,《Click Fraud Detection: Adversarial Pattern Recognition over 5 Years at Microsoft》,這篇文章介紹了微軟2014年以前的一些心路總結,從RuleBitmap 到 Model Fighting,如何定義Metric (Value per Click)。我有幸與部分做者一塊兒工做,期間真心感到反欺詐的工做的無冕之艱辛。
我收集了一些Papers,有興趣的同窗能夠到個人主頁上下載
7 反做弊技術公司
1) Integral Ad Science
2009年成立的反做弊公司,保護品牌安全等,這家公司和尼爾森有不少合做, 詳情可見http://integralads.com
2. Solve Media
專業提供CAPTCHA( "Completely Automated Public Turing test to tell Computers and Humans Apart")的服務,也就是驗證是不是人操做,而不是機器訪問。
3.Double Verify
主要從事視頻的可見性的檢測,它和Facebook和Youtube都有合做,通過MRC的認真。
4. Forensiq
專業處理虛假流量的技術公司,在投前,投中,投後都可以提供解決方案。
8.最後不得不說的話
打擊異常流量,是一件苦勞老是多於功勞的事情,處理不利經常遭到廣告主的投訴以及平臺的信譽度降低,若是過於激進,廣告主消耗可能會顯著減小,交易平臺流水也會減小。反欺詐算法的同窗一般須要保守各類算法規則的祕密,不少時候,一些新的規則上線,也不能大肆宣揚,只能暗中觀察效果,與非正常流量開始一波又一波的拉鋸戰鬥。
最後,爲長期打擊反欺詐的同窗鼓掌加油!
個人相關參考文章
廣告技術:
互聯網廣告的歸因分析(Attribution Analysis) (新!)
兩分鐘搞明白Beacon,iBeacon和EddyStone
Java技術:
大數據分析:
做者介紹:
歐陽辰,小米MIUI商業產品部 架構師/主管,超過16年的互聯網老兵,負責廣告平臺架構和數據平臺,曾負責微軟移動Contexual Ads廣告平臺,參與Bing搜索引擎IndexServe的核心模塊研發,有空也會在我的微信公衆號「互聯居」中,分享一些互聯網技術心得,訂閱「互聯居」公衆號,與做者直接交流。