當爬蟲被拒絕時(Access Denied)

     因爲要準備測試數據,不得不大量爬取某個網站的內容。爲了防止被封,特地將爬蟲設計爲單線程同步的爬蟲。結果在爬了大約3萬個頁面的時候,對方發回Access Denied。等一段時間後再啓動爬蟲,結果仍是Access Denied。這時才明白這樣的想法太天真了,當初就應該找其它方法來避免纔對。而本文則記述了這些其它方法。html 1. 假裝user agent       User agent
相關文章
相關標籤/搜索