但在堆代碼以前,先預研一下,而後想一想下面幾個問題. javascript
1,你定製爬蟲的目標
2,預計的規模
3,是否須要js支持
4,是單次爬取仍是週期性爬取
5,其餘
6,突破網站的防爬取策略 java
如上幾個問題也並不是徹底獨立,他們一般相互影響.如固定的爬取目標一般有可預計的爬取規模.
etc... web
1,爬取的目標,你所須要爬取的網站url是固定的集合仍是變更的.對於相似比價這種爬取目標固定的,問題要略簡單一點,你須要爬取的是那些站,能遇到的問題將在一次完整爬取發生.但對於非固定目標爬取則略困難.一個場景是我從搜索引擎搜索一系列關鍵字,將得到的結果做爲目標爬取.很難確保你寫的爬蟲在全部目標上工做都是正常的. 瀏覽器
2,爬取規模影響方面不少,對於一次固定的小規模爬取,能夠徹底不考慮各種優化.但對於規模較大的爬取,則須要考慮各類優化.有以下方面.1,分佈式.2,各部分的效率,如內容解析效率(正則,xpath等),連接提取效率,3,settings中相關參數的配置. 緩存
3,是否須要js(javascript)支持,現在愈來愈多的網站使用js生成內容.也有可能出於防爬取的目的採用js.根據具體狀況採用模擬js相關動做解決或使用js引擎,webkit之類完整執行. 分佈式
4,單次爬取較易,週期性爬取涉及週期長短,如何保障週期內完成此次爬取任務.根據任務量和實際需求肯定爬取週期. 優化
5,其餘,如何支持http緩存來提升效率,是否支持iframe.是否須要在規範上,行爲上更像一個瀏覽器(瀏覽器模擬) 網站
6,各類防爬取策略及其相關在此係列中將不被說起. 搜索引擎
接下來的文章將按問題的流行度完成,你猜第一篇是?-.-um,第一篇是javascript支持.
我正在下載一個大文件.因此連續寫了兩篇...
大概跑爬蟲時發下一篇... url