圖書信息庫完整解決方案（五）網絡代理

時間 2019-11-15

標籤圖書信息完整解決方案網絡代理欄目系統網絡简体版

原文原文鏈接

頻繁的爬取網站數據，很容易致使ip被封鎖，因此在具體爬取網頁的過程當中必定要使用代理ip。網站

代理ip的來源通常就兩種：代理

一、免費代理ip（可自行搜索，通常免費ip的質量不會過高，而且時好時壞，有不少根本沒法使用）。blog

二、付費代理ip（有很多網站提供收費的代理ip，質量高而且訪問速度穩定）。ip

我在這裏採用了兩種相結合的方式，首先從百度上找了一些免費ip，而後也少許付費購買了一些收費ip，在此基礎上造成了本身的種子ip庫。基礎

而後以這個庫爲基礎進行圖書數據的抓取。百度

當某個ip沒法使用時則在庫內進行標記，當可以使用的ip低於某個臨界值（好比僅有10個ip可用）則從指定網站抓取一些免費ip入庫。搜索

當全部ip都沒法使用時，則重置庫內全部ip爲可用，而後從頭開始嘗試，每每有一些ip這時候就可用了。im

這樣一邊積累本身的ip庫，一邊不斷的抓取，基本能保證始終有可用的代理ip。數據

相關標籤/搜索