圖書信息庫完整解決方案(五)網絡代理

頻繁的爬取網站數據,很容易致使ip被封鎖,因此在具體爬取網頁的過程當中必定要使用代理ip。網站

代理ip的來源通常就兩種:代理

一、免費代理ip(可自行搜索,通常免費ip的質量不會過高,而且時好時壞,有不少根本沒法使用)。blog

二、付費代理ip(有很多網站提供收費的代理ip,質量高而且訪問速度穩定)。ip

我在這裏採用了兩種相結合的方式,首先從百度上找了一些免費ip,而後也少許付費購買了一些收費ip,在此基礎上造成了本身的種子ip庫。基礎

而後以這個庫爲基礎進行圖書數據的抓取。百度

當某個ip沒法使用時則在庫內進行標記,當可以使用的ip低於某個臨界值(好比僅有10個ip可用)則從指定網站抓取一些免費ip入庫。搜索

當全部ip都沒法使用時,則重置庫內全部ip爲可用,而後從頭開始嘗試,每每有一些ip這時候就可用了。im

這樣一邊積累本身的ip庫,一邊不斷的抓取,基本能保證始終有可用的代理ip。數據

 

相關文章
相關標籤/搜索