NodeJs從零構建代理ip池(一)介紹


《原文地址》html

本系列主要講解如何從零實現一個簡單的代理 IP 池,教你從 Node 爬蟲入門到融會貫通。git

跟着本系列教程,將會學到一個完整 NodeJs 項目的開發到部署的一整套流程。github

零、項目介紹

目標:維護一個相對穩定,長期可用的免費代理 IP。數據庫

採用定時爬蟲,不停的去各大免費代理 IP 網站,爬取代理 IP 數據,並定時清洗數據存入數據庫。
由於免費的代理 IP 很是不穩定,可能如今能夠用,一個小時後就沒法使用。所以還須要每隔一段時間,去校驗代理 IP 是否可用,清理不可用的代理 IP,保證數據庫中,存在一堆相對穩定可用的代理 IP。框架

項目預覽地址: http://ip.izhongxia.com
項目源碼地址: simple-proxy-poolpost

1、文章目錄

  1. 項目框架介紹與搭建
  2. 爬蟲抓取數據 [TODO]
  3. 清洗數據,並保存到 MySql 數據庫 [TODO]
  4. 定時抓取數據和清洗數據 [TODO]
  5. 定時校驗代理 IP 的可用性 [TODO]
  6. 使用 BootStrap 實現數據展現頁面 [TODO]
  7. 使用 PM2 進行項目部署 [TODO]

2、爲何寫這個系列

在一次爬蟲數據抓取的過程當中,IP 被封了。 雖然之前知道有代理 IP 這個東西,可是因爲爬蟲的量很小,而且沒有高頻次的抓取,所以沒有用到代理 IP。恰好此次碰到了這個問題,那麼就本身維護一個相對穩定的免費代理 IP 池。網站

而後採用 Eggjs 爲基礎框架,用來兩個週末的時間,完成了這個代理 IP 池。spa

乘着還清楚的記得,開發的各大過程,思路,以及開發中遇到的坑, 就準備編寫一下這個系列《NodeJs 從零實現代理 IP 池》的文章。.net

相關文章
相關標籤/搜索