文/朱季謙前端
本書的內容正如書名所述,是爲要略而非攻略,即做者站在一個更爲宏觀的角度,以自身的從業經驗對當今風控領域作了一番較爲全貌的總結概述。書中的章節內容有精有簡,既爲要略,那麼就沒法苛求其內容都足夠全面與詳細。它更像是一部風控領域的科普類簡述做品,在廣度上能較好地讓讀者瞭解到風控各方面的現狀及走向,但若要談及深度,則多少有種「師父領進門,修行在我的」的感受。這本書其實有挺多人推薦,一方面是書籍出版時間距離如今很近,一方面則是填補風控業務領域入門書籍的空白,只是通篇讀完,好的地方是有,值得吐槽的地方也很多。總而言之,對於像我這樣風控小白而言,仍是值得翻閱一番。算法
正如做者在序中所言,讀者經過仔細閱讀本書,能夠對互聯網反欺詐的過去、如今和將來有一個系統的認識。瀏覽器
全書總共分爲四個部分,第一部分介紹黑產欺詐團伙的運做套路和攻擊手段;第二部分是做者總結其在構建反欺詐技術體系過程當中沉澱的實踐經驗;第三部分則爲與黑產對抗的實戰案例,以及機器學習算法的綜合運用;第四部分介紹其對物聯網、內容安全、隱私合規等方面的實踐和對海外廠商的觀察,這更像是一種對風控將來的展望。安全
在書中的第一部份內容中,又劃分爲黑產發展態勢與黑產武器庫概覽兩章節,其中,黑產發展態勢介紹黑色產鏈的結構與演變,而黑產武器庫概覽則是介紹主要的欺詐方式與工具,包括虛假號碼、代理IP、設備僞造工具。微信
在黑產發展態勢中,重點介紹了目前市場上主要的反欺詐詞典術語,包括,垃圾註冊、薅羊毛、衆包、黃牛/刷單、刷單、套利、空包等,其中有幾個術語單從字面上沒看懂是怎麼一回事,如垃圾註冊、空包與衆包。網絡
垃圾註冊,通俗地理解,如常見的微博買粉、公衆號刷閱讀刷點贊刷評論,這些都是經過腳本或者其餘方式來大批量惡意註冊帳戶實現的,這種行爲即爲垃圾註冊;空包即虛假髮送快遞、發送空快遞或者包裹,用以達到給商家刷單的效果。比較難理解的多是衆包,衆包的意思,是由多個獨立的個體共同自願參與完成一項任務,注意一點,共同與自願是該模式的核心。它屬於一種廣撒網意義上的外包,與傳統外包相比,都是將任務分發到組織以外的人員手裏完成,但衆包更側重於開源與自願上的外包,它面向全部大衆,講究自願合做共創價值,能夠是有償也多是無償,也就是說,通常而言不存在以合同爲約束的勞資關係。而傳統外包最明顯特徵是花錢僱傭人員來提供服務,是一種僱傭的勞資關係。app
書中拿衆包薅羊毛案例來表述該術語:在某微信羣中,羊頭和羊毛黨配合,羊頭負責收集線報並同步到微信羣內。羊毛黨蔘與活動,他們低價購買商品,直接轉售給羊頭,羊頭藉此囤積大量的低價商品,再經過其餘線下渠道轉售出去。機器學習
衆包這一模式被做者用在薅羊毛欺詐行爲當中來表述,容易給人形成一種錯覺,即衆包模式與空包、垃圾註冊、薅羊毛同樣,都是一種惡意行爲,實際上並不是如此。工具
衆包這一律念,源於對企業模式的一種反思,通俗的說,這是一種有可能顛覆傳統企業的創新模式。傳統的企業模式,都是以僱傭關係來維持員工與企業的關係。但在衆包概念裏,更有一種區塊鏈裏去中心化的味道,不存在上下級,不存在僱傭關係,更可能是一種自願合做,而合做,講究的是並肩前行,但前提是,須要有利益驅使,這種利益驅使則體如今多作多得的基礎之上。學習
值得注意的是,衆包模式已經出現不少實際落地案例,最多見的如美團騎手、滴滴接單、貨拉拉搬家等,它們都有一個類似的地方,即任務由平臺發出去,我的經過註冊平臺app可去領取任務,完成,拿錢。可能不少人並無意識到,咱們日常所點的外賣派送,其背後就存在衆包這一創新概念。
我爲何要花那麼多筆墨闡述衆包這一律念?
由於當把黑產鏈總體結構瞭解完以後,會發現衆包這一律念在整條產業鏈裏充當極其重要的角色,如書中提到的打碼平臺——其落地理念就是衆包模式:平臺上彙集大量想在網上賺錢的勞工,當攻擊者在拿到驗證碼的圖片後,就上傳給打碼平臺,打碼平臺會把圖片下發給這些勞工,由他們隨機領取任務來解答,而後把正確答案返回。
能夠說,這一創新模式,某種意義上很值得研究學習。
關於黑產方面的描述,做者更可能是站在羊毛黨這類團伙欺詐手段上來詳細展開,比較遺憾的是,其餘如電信欺詐黑產,則簡單地一筆帶過,但做者在文中卻這樣寫道:「在現實世界中還有一類更加兇殘的黑產團伙——電信詐騙團伙。這類黑產團伙的危害遠遠超過上文所說的羊毛黨類黑產。」
至於如何危害以及有哪些手段,做者沒有詳細探討。或許就像水墨畫裏的留白手法通常,只指明一個方向,但點到爲止,剩下的,就靠讀者慢慢在實踐當中探索與總結。
書中用一組數據反映出這條成熟黑產鏈背後的成員年齡分佈,其中在18歲至24歲的參與者佔比竟超過50%。這個年齡段的人,能夠說都是互聯網的原住民,他們大多都頗有想法,也更加了解互聯網世界。但就是這樣一羣人,在金錢的驅動下,其分工已經變得愈來愈細,專業化程度不斷提高。他們一樣普遍地使用大數據分析、深度學習以及人工智能等新技術,這時,技術就變成一把雙刃劍,意味着,道高一尺可能魔高一丈。黑產在精細化的同時,也將逼着風控向精細化方向發展,但究竟如何發展?這是一個暫無明確答案的問題。
第一部分的內容,做者以一句「很多看似正規的互聯網企業爲了得到極速的成長,甚至會主動引入黑產生態的流量」當作最後結尾。這是很值得玩味的一段話。拿一個簡單案例來講明,即一新興的電商app,可能爲了提升流量,故意給羊毛黨開一個口,主動引來羊毛黨,這樣一來,平臺用戶量就一會兒上來了,進而用戶活躍數據報表就豐滿好看了。
只是這樣的作法是好或壞,我沒法去作評判。
前面主要都是第一部分的內容閱讀思考,若要以一種讀到無字的地方要比有字的地方多的理念去深刻研究,大概是能夠扯出更多讀後理解,但沒有必要,由於整本書的核心乾貨在第二部分與第三部分。這兩部份內容更可能是做者的一種經驗總結,它提供給我最大價值在於,是把之前實際作過的但不知道其業務做用的地方都有一個較好的領悟。通俗地打個比喻,就是在製做一個藥物的過程,我負責的只是其中一個很小的環節,可能只是負責是把藥植物碾碎,雖身在其中,但不知道所參與制做的藥物成型以後究竟有何做用,直到有一天,忽然看到相關的藥物說明書,才恍然明白,原來當初參與制做的藥物,是經過這樣的方式用來治療感冒的。
在第三部分的反欺詐體系建設章節中,做者根據經驗與教訓提出一套貫穿事前、事中、過後的動態防控理念。事前是針對前端風險的識別,事中是創建基於帳號、設備和黑產情報的三維立體風險模型與智能決策機制來防控欺詐交易,過後則是沉澱案件與溯源。針對這一套動態防控理念,做者總結出一個三層的反欺詐防控體系,包含終端風控層、分析決策層和數據畫像層,其中,還有一個威脅情報體系貫穿這三層。根據其提供的插圖可知,其實這三層就是事前、事中、過後這三塊的具體技術實現。
這套三層反欺詐防控體系能夠說是書中第三部分的總綱領,就像是小說創做裏常說的大綱,然後面的內容則是在大綱的基礎上,分門別類地去細化完善。第三部份內容除去反欺詐體系建設一章外,另有八個章節,其中設備指紋、生物探針、智能驗證碼這三章節屬於防控體系當中的終端風控層,其中最重要一環是設備指紋;決策引擎系統、實時指標計算、風險態勢感知屬於分析決策層,這是各類數據、規則和模型彙總計算的中心;最後名單體系屬於數據畫像層,包括黑產攻擊事件、黑手機號名單、IP畫像、設備畫像等;欺詐情報體則屬於貫穿三層的威脅情報體系的內容。
這部分的業務知識點,除了生物探針、智能驗證碼,其他都或多或少在實際工做當中有所接觸或者聽聞過。
接下來,把書中提到的三層反欺詐體系當作讀書筆記梳理總結下。
1、終端風控層
這些特徵屬性參數在不一樣的操做系統上有所差別,書中主要概述了Android設備指紋參數、iOS設備指紋參數、Web設備指紋參數這三種,參數圖示以下:
圖-Android 系統中比較穩定的設備參數
圖-iOS 系統中比較穩定的設備參數
圖-瀏覽器比較穩定的設備參數
做者在書中給出幾種對抗黑產破解驗證的方案,這些方法難以被打碼平臺和AI破解,值得參考瞭解:
該方法是在攻擊者獲取驗證圖片步驟前,增長檢測手段,如檢測用戶的設備環境是否存在異常、是否爲模擬器、有無安裝做弊工具,除此以外,還給驗證碼加入其餘防控維度,包括歸屬地、是否設備黑名單、IP畫像等等。
在如何設計一款優秀的驗證碼方面,做者給出了一些參考意見,智能驗證碼類型包括滑塊驗證、圖文點選、空間旋轉、空間推理等,在實際設計中都聽從三個原則:對人容易、對機器難、有趣好玩。
總而言之,就是在有效防禦的同時具有良好的用戶體驗,最理想的狀態是,對正經常使用戶無感,對異經常使用戶彈框驗證。
針對該原則,做者闡述了一款智能驗證碼的設計原理:經過持續對用戶的終端設備、網絡環境和生物行爲等非敏感特徵進行風險檢測、關聯分析,並引入行爲生物識別算法,實時判斷當前用戶是否存在風險、對應的風險程度,根據用戶配置的策略進行風險決策。智能驗證碼提供自動智能預判處理機制,例如,用戶無風險一鍵經過,用戶有風險則根據不一樣風險等級彈出不一樣難度的驗證碼進行挑戰。同時,用戶能夠根據實際狀況須要選擇不一樣的驗證類型、驗證素材、驗證語言、驗證策略等。
以上就是終端風控層的內容,主要核心就是事前進行前端風險識別,提升防控能力。
2、分析決策層
整本書我最想吐槽的,應該就是決策引擎系統這一章了。
決策引擎系統應該反欺詐的靈魂所在,但很遺憾,本書中關於決策引擎方面的內容,略過於精簡,沒能給稍有經驗的讀者帶來較好新鮮乾貨,但仍存在一點參考價值。
這塊內容主要闡述決策引擎系統的特色,其核心是規則引擎,而規則引擎又包括規則可視化管理、規則推送、規則執行等模塊。
決策引擎規則管理界面的建立和管理一樣是具有可視化界面,根據書中插圖能夠看出,其規則管理是居於策略下的,以下圖所示,該批量規則屬於「異常登陸_安卓」該策略下,而策略是否又在策略集底下,書中沒有明確說明,根據插圖,可看出,其策略底下包含了規則管理與指標定義兩個tab類型。
書中給出了三種不一樣規則引擎的實現方案,包括以Apache Groovy 爲表明的腳本引擎,以Drools規則語言爲表明的開源規則引擎,以ILOG 爲表明的商業規則引擎,相應的介紹圖示如:
這些指標計算均可以統一抽象出幾個固有特徵:時間窗口、事件、主屬性、副屬性、計算邏輯的組合。
所以,以上的經常使用指標能夠抽象出以下圖所示:
風險態勢感知系統主要起到風險預警的做用,主要用於快速發現現有風控系統的防護盲區,預警線上逐漸失效的防控策略,根據實際對抗效果不斷對風控系統進行完善。實現該感知系統主要有三種方案:
主要分爲對核心風險事件數據分析與核心業務數據分析。其中,核心風險事件數據是風控系統運行過程產生的數據,如日調用量、拒絕率、拒絕變化率、審覈率、字段獲取率等,簡單點的說,這些都算平常反欺詐調用統計報表裏的數據。先前我曾參與過白騎士反欺詐調用統計報表相關的開發,雖知道如何實現其統計邏輯,但這些數據背後具體能分析出些什麼風險信息來,我是不甚瞭解的。此次閱讀書中這塊有關統計分析的內容,在必定程度上,算是給我掃了一下數據分析的盲區。如調用量的分析,若其忽然大幅度波動時,每每意味着,虛假黑產流量的增長;風控數據字段的獲取狀況,則能從側面反映出當前系統有無發生風險等,其他觸類旁通,均可從一個數據當中,分析其背後暗含的信息量。另外,核心業務數據分析,則是指業務自身的核心數據,如電商、直播過程產生的業務數據,以電商業務爲例,預警業務數據包括可收貨地址分佈、店鋪分佈、商品類目分佈、IP分佈等,簡單打個比方,如收貨地址都分佈密集在一個範圍很小的地域,那麼,這數據背後就有多是團伙欺詐做案。
主要有特徵抽取,創建連通圖,羣組聚類。
3、數據畫像層
該層主要以風險數據名單體系建設爲主。名單,包括白名單、灰名單和黑名單。名單的價值在於把業務系統中曾經出現過、較高風險的數據按照必定分類進行存儲,提供給不一樣場景中的業務團隊作風險參考,每一條名單數據都表示它曾參與過某次風險行爲,所以,具備較高的準確性。
做者在書中總結出名單體系的設計思路:
在互聯網反欺詐業務中,常見的幾種名單主鍵是:手機號、身份證、銀行卡、IP和各種設備標識。
標籤能夠指向一種明確的風險,如創建一個「刷單的手機號黑名單」,這樣的標籤直接指向一種特定類別的風險(如刷單這種具體的風險)。標籤也能夠指向一種風險相關的特徵,仍是以手機號爲例,若是創建的是「虛假號碼」的手機號名單,則不直接指向具體風險結果,而是表示和特定類型的風險(如刷單、薅羊毛)相關性很是高。
絕大部分名單數據都有時效性,若是不能及時更新維護,其價值在一個特定時間點以後會迅速衰減。另外,數據自身特性或數據背後的某些因素髮生了改變,也可能會致使該名單數據快速失效。關於名單體系的生命週期維護,書中提出一種比較有意思的參考方案,即從名單數據命中率變化來肯定其生命週期,據做者表述,這是一種成本較低的方式。主要有兩種分析命中率從而肯定名單生命週期的方法:一是選定一批虛假號碼做爲樣本,持續觀察這批數據在決策中命中率是如何變化的。找到較爲合適的一個時間跨度,做爲虛假號碼名單數據的有效期;二是從近一年的事件中,提取全部的手機號數據,和全量的已知虛假號碼進行比對,而後追溯命中部分名單數據的入庫時間和最後更新時間,進而計算出虛假號碼的命中率狀況。兩種區別主要在於,前者須要較長的時間週期才能得出結論,後者在短時間內就能給出結論。
名單數據通常用在註冊、登陸和體現等相對重要的業務環節,這樣就意味着,若形成誤殺每每會引起比較嚴重的影響。反過來思考,若想提升名單體系的質量管理,其實質就是下降名單的誤殺。然而如做者在書中所言,誤殺率評估相對比較難作,且不一樣數據狀況不一樣。做者使用的誤殺評估方法,是收集策略效果狀況、客戶投訴等多方面因素綜合量化評估其變化趨勢。這個方法比較抽象難懂,我暫時也沒有理解裏面涉及的原理。
4、威脅情報體系
該體系通俗理解,就相似一個間諜,打入到黑產團伙當中,去收集分析黑產團伙使用哪些資源和技術手段,包括但不限於獲取「刷單」、「薅羊毛」等黑產攻擊事件細節、黑產新型的做弊工具及黑產使用的各種資源信息,簡而言之,就是知己知彼,最後通過情報分析,再有的放矢地作出應對措施。
做者根據自身經驗總結了欺詐情報體系的建設思路:
經過臥底黑產網絡、監控黑產論壇等方式進行情報採集,主要包括數據情報、技術情報和事件情報採集。數據情報主要是手機號、IP、設備及郵箱帳戶等數據採集,沉澱出相應的黑名單數據;技術情報是獲取某種欺詐技術的詳細信息,包括原理、用途、危害等;事件情報則是捕獲某些即將發生、正在發生或者已經發生過的欺詐事件信息。
將各個渠道收集的原始數據信息,包括文本、圖片、音視頻文件甚至代碼片斷等,經過自動化或者人工運營的方式進行分析。其中,做者表述其公司已基本實現文本類情報的自動化分析,同時,給出了相關的分析思路:第一步,先進行智能分析,即在提煉過程當中,運用分詞算法、關係抽取、詞性標註、實體識別等方式,對目標實體詞彙進行識別、關聯、清洗,最後提煉出目標風險信息;第二步,是進行風險預警,即將提煉出的風險信息,再進一步完善風險的描述(如識別語句中的黑化,還原欺詐方式,掌握黑灰產的破解思路如何繞過平臺,預估參與本次活動的人數,形成的損失等)。最終向用戶輸出結構化的完整預警信息,便於用戶進行快速決策。
以上,就是做者總結出的反欺詐風控系統的構建思路,閱讀的過程中,結合先前的一些實際經驗,可對這部份內容從新作一遍梳理理解,更好地瞭解到,工做當中業務相關的原理。
第三部份內容主要是實戰案例,分爲機器學習算法使用與互聯網反欺詐實戰。機器學習算法章節包括了特徵工程、模型選擇、模型訓練以及工程化和業務落地。這部份內容比較抽象難懂,我只是簡單地過了一下。在閱讀過程當中,有一個地方讓我比較有印象,就特徵工程裏的特徵維度,我原覺得在機器學習中,獲取到的特徵應是越多越好,然而,做者在書中指出,實際操做中並不是特徵維度是越多越好,所以,特徵維度較多的數據樣本,一般須要先進行降維處理。通俗的理解,應該就是剔除非主要特徵,保留主要的特徵,就有點相似二八原則的感受。
特徵工程的降維方法,書中提到了兩種,一是經驗直覺法,也就是依賴我的經驗來剔除樣本的冗餘特徵;二是統計分析法,是一種從統計分析學角度考慮的方法,包括缺失值剔除、低方差濾波、高相關濾波等方法。缺失值剔除能夠簡單理解爲,在一堆樣本當中,若大部分樣本是沒有該維度數據的,那麼該維度的特徵是能夠被剔除;低方差濾波能夠理解,若某一特徵維度幾乎沒有變化,即一直保持近乎一樣的狀態,那這樣的特徵維度也是沒必要要的,能夠被剔除忽略;高相關濾波則是存在高度相同的特徵維度時,只取其中一個特徵做爲驗證便可。
在書中,提到了幾種降維算法,包括PCA、KPCA、PCR。
模型選擇包括決策樹、隨機森林、K-Means、神經網絡、卷積神經網絡、遞歸神經網絡和圖計算,做者在書中用一種圖來歸納表達:
本部份內容另一章是互聯網反欺詐實戰,做者在書中提到了幾種反欺詐實戰案例,包括垃圾註冊風險識別、批量登陸風險識別、「薅羊毛」風險識別、裂變拉新做弊風險識別、「任務」做弊風險識別、惡意退單風險識別。這些內容都具有必定的參考意義,可從中收穫一些規則策略的設計與部署以及運營監控實現思路。固然,這些都只是做者我的的經驗總結,不可能都通用,當作學習參考便可。
書中的第四部分,取名「新的戰場」,應是做者對將來風控的一個展望與關注。這部份內容主要包括物聯網時代的風控、內容安全與合規、風控與數據合規使用與海外風控公司介紹。
內容與數據安全方面,更可能是從數據規範化方面闡述,總體比較枯燥,能夠理解成,風控領域已經從野蠻生長進入到一個合法合規的時代,在這樣一種大環境下,更須要注重法律規範。
物聯網風控方面的闡述,做者彷佛在預測着風控時代一個更大市場規模的出現,物聯網打通虛擬和現實世界,這就意味着,黑產的攻擊再也不侷限於虛擬網絡,其攻擊可能會影響到終端用戶人身安全,甚至社會穩定,這就意味着,物聯網時代的風控,任重而道遠。
做者在書中提到,物聯網面臨的安全注意在「雲、管、端」層面,即物聯網的雲端平臺、網絡通訊和終端設備。針對這些層面可能面臨的威脅,做者提出了一套物聯網安全風險控制體系建設思路,同時,就相似反欺詐體系同樣,物聯網安全體系中一樣需具有一套安全風險態勢感知系統。物聯網風控相關內容與實際工做的金融風控有較多差別,且暫未有成熟和普遍的落地實際,故可作了解便可。
在本書中,最後一塊內容是海外風控公司的介紹。這部份內容看似可有可無,其實一樣存在一些值得探索的東西在裏面。由於咱們所在的這個世界存在各類各樣的信息差,而信息差的獲取,在某種程度而言,就是一種優點,不少人就是靠着信息差大發橫財。書中提到的海外風控公司,是否存在一些與國內不同的東西,一樣是值得去了解下的。
讀完這本書,或多或少是有所收穫的,但這樣的收穫其實仍是浮於表面,若要有更加深刻的理解,還需在漫長的實踐當中,不斷積累與反思,纔可能有更加深入的理解與掌握。
畢竟,冰凍三尺非一日之寒。