頻繁的爬取網站數據,很容易致使ip被封鎖,因此在具體爬取網頁的過程當中必定要使用代理ip。網站
代理ip的來源通常就兩種:代理
一、免費代理ip(可自行搜索,通常免費ip的質量不會過高,而且時好時壞,有不少根本沒法使用)。blog
二、付費代理ip(有很多網站提供收費的代理ip,質量高而且訪問速度穩定)。ip
我在這裏採用了兩種相結合的方式,首先從百度上找了一些免費ip,而後也少許付費購買了一些收費ip,在此基礎上造成了本身的種子ip庫。基礎
而後以這個庫爲基礎進行圖書數據的抓取。百度
當某個ip沒法使用時則在庫內進行標記,當可以使用的ip低於某個臨界值(好比僅有10個ip可用)則從指定網站抓取一些免費ip入庫。搜索
當全部ip都沒法使用時,則重置庫內全部ip爲可用,而後從頭開始嘗試,每每有一些ip這時候就可用了。im
這樣一邊積累本身的ip庫,一邊不斷的抓取,基本能保證始終有可用的代理ip。數據