反爬經驗與理論基礎

時間 2019-12-07

標籤經驗理論基礎简体版

原文原文鏈接

1、反爬體系要作什麼前端

完整的反爬體系有三大部分工做要作：感知識別、策略分析、監控封禁。小程序

（一）感知識別：後端

數據支撐：爬蟲指紋、設備指紋、風險UA、IP庫等，不一樣端指紋的mapping等。
數據感知，什麼人，經過什麼方式，用什麼爬蟲，在什麼時間，爬取了咱們什麼內容。

（二）策略分析：瀏覽器

事前策略：經過技術手段，在源頭使攻擊者沒法爬取。
過後策略：指感知到有爬蟲事件後，採起的封禁、驗證碼等組合策略。

（三）識別封禁：架構

離線識別：經過數據埋點監控，可離線分析爬蟲狀況，實時性差，但對業務無任何影響。
在線識別：在線檢測服務，在業務關鍵節點，調用在線檢測服務，實時感知爬蟲狀況。
離線阻斷：離線分析後，根據策略篩選出要封禁的IP、UA、Session、userid等，調用封禁服務統一封禁。
在線阻斷：在線檢測到爬蟲行爲後，直接調用封禁服務阻斷爬蟲。

2、反爬策略有哪些
（一）事前策略：app

js計算：js添加簡單的數學計算，要求瀏覽器計算結果以後，返回給後端校驗計算結果，來識別是不是爬蟲行爲。
js生成動態url：運維
- 生成動態參數：訪問頁面，先返回js腳本，js生成一個新參數，加入原請求中，再訪問，纔可獲得數據。
- 生成動態地址：訪問頁面，先返回js腳本，js生成新接口地址，再訪問新接口，纔可獲得數據。
js生成動態頁面：動態生成js標籤
由於js對用戶是可見的，因此要儘可能提高攻擊成本，要寫難懂的js，好比大量使用eval和goto，好比作js混淆、js壓縮等。

（二）過後策略：ui

閾值封鎖加密
1. IP維度：常見，但有兩個缺陷：容易誤傷普通用戶，容易被繞過。
2. Session或uid等維度：須要考慮不一樣業務的Session或uid邏輯，是否惟一穩定？是否非空？
3. UA維度：誤殺很是嚴重，除非能準確識別爬蟲UA。
4. 設備指紋：PC、APP、小程序。
投毒：命中相應策略後，後端給前端反回必定比例的假數據。
驗證碼：圖形、划動、短信、人臉、聲紋。
加密：app參數加密，PC小程序先後端加密。前端加密須要作js混淆等處理。

3、反爬架構什麼樣url

數據支撐平臺：經過埋點、採集等方式接入各種維度的基礎數據和第三方指紋sdk，封裝成統一的數據輸出形式。數據輸出能夠接口、db、log等不一樣形式。
數據分析平臺；輸入支撐數據，輸出爬蟲畫像。
策略分析平臺：輸入爬蟲畫像，採起不一樣策略，輸出策略分析結果。
上報阻斷平臺：輸入策略分析結果，上報給運維，作阻斷。

相關文章

相關標籤/搜索

計算機理論基礎

爬蟲－反爬蟲

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<