java 網絡爬蟲項目(1)

1.需求分析 數據很重要,所以讓他爬... 2.難點分析 1.網站採取反爬策略 2.網站模板定期變動(標籤變化) 3.網站URL抓取失敗 4.網站頻繁抓取IP被封   3解決方案 1.反爬策略 通過瀏覽器的方式訪問 2.定期變動 不同的配置文件配置不同的網站規則;  數據庫存儲不同的規則模板; 3.url抓取失敗 HTTP client 處理方式 嘗試三次   ;  storm 實時解析失敗日誌,
相關文章
相關標籤/搜索