基於spark和kafka反爬蟲技術【第一天】

1.技術背景 現在很多購票網站在互聯網提供查詢、預定等服務,有大量用戶訪問的同時,也存在着大量爬蟲,爬蟲消耗了系統資源,但是沒有轉化爲銷量,導致系統資源虛耗,嚴重時造成系統波動,影響正常用戶訪問購票。通過日誌分析,發現官網訪問中存在大量爬蟲,且通過ip僞裝。 爲了限制僞裝奇數越來越強的爬蟲訪問和惡意佔座行爲,需要開發大數據爬蟲工具。 2. 項目概述 2.1 系統功能 數據管理:數據採集、分類、處理
相關文章
相關標籤/搜索