《原文地址》html
本系列主要講解如何從零實現一個簡單的代理 IP 池,教你從 Node 爬蟲入門到融會貫通。git
跟着本系列教程,將會學到一個完整 NodeJs 項目的開發到部署的一整套流程。github
目標:維護一個相對穩定,長期可用的免費代理 IP。數據庫
採用定時爬蟲,不停的去各大免費代理 IP 網站,爬取代理 IP 數據,並定時清洗數據存入數據庫。
由於免費的代理 IP 很是不穩定,可能如今能夠用,一個小時後就沒法使用。所以還須要每隔一段時間,去校驗代理 IP 是否可用,清理不可用的代理 IP,保證數據庫中,存在一堆相對穩定可用的代理 IP。框架
項目預覽地址: http://ip.izhongxia.com
項目源碼地址: simple-proxy-poolpost
在一次爬蟲數據抓取的過程當中,IP 被封了。 雖然之前知道有代理 IP 這個東西,可是因爲爬蟲的量很小,而且沒有高頻次的抓取,所以沒有用到代理 IP。恰好此次碰到了這個問題,那麼就本身維護一個相對穩定的免費代理 IP 池。網站
而後採用 Eggjs 爲基礎框架,用來兩個週末的時間,完成了這個代理 IP 池。spa
乘着還清楚的記得,開發的各大過程,思路,以及開發中遇到的坑, 就準備編寫一下這個系列《NodeJs 從零實現代理 IP 池》的文章。.net