高可用分佈式代理池:架構篇

歷時大致兩個月,到現在終於完成了分佈式代理抓取爬蟲,目前開源在了Github上。寫這個項目的原因主要有兩點,一是自己平時的部分工作需要和爬蟲打交道,代理IP在有的時候可以發揮非常重要的作用,調研過一些開源的代理IP採集程序,發現在抓取、解析、校驗、資源調度等這些方面總有一些不盡人意的地方;二是和一個網友(不嚴格的說算得上是伯樂)的交流讓我有了關於使用Scrapy來寫分佈式爬蟲的一些想法,正好可以借
相關文章
相關標籤/搜索