初識Java爬蟲

難點分析 網站採取反爬策略 解決方式:模擬瀏覽器 網站模板定期變動 解決方案: 不同配置文件配置不同網站的模板規則                    數據庫存儲不同網站的模板規則 網站URL抓取失敗 解決方案HttpClient 默認處理方式 Storm 實時解析失敗日誌,將失敗URL重新加入抓取倉庫,一般超過三次就放棄 網站頻繁抓取IP被封 解決方案:購買代理IP庫,隨機獲取IP抓取數據。
相關文章
相關標籤/搜索