基於spark和kafka反爬蟲技術【第一天】

時間 2021-01-13

標籤大數據欄目 Spark 简体版

原文原文鏈接

1.技術背景現在很多購票網站在互聯網提供查詢、預定等服務，有大量用戶訪問的同時，也存在着大量爬蟲，爬蟲消耗了系統資源，但是沒有轉化爲銷量，導致系統資源虛耗，嚴重時造成系統波動，影響正常用戶訪問購票。通過日誌分析，發現官網訪問中存在大量爬蟲，且通過ip僞裝。爲了限制僞裝奇數越來越強的爬蟲訪問和惡意佔座行爲，需要開發大數據爬蟲工具。 2. 項目概述 2.1 系統功能數據管理：數據採集、分類、處理

>>阅读原文<<