新浪微博爬蟲分享(2016年12月01日更新)

前言: 上篇文章:《新浪微博爬蟲分享(一天可抓取 1300 萬條數據)》、《新浪微博分佈式爬蟲分享》 Github地址:SinaSpider Q羣討論:python 更新完《QQ空間爬蟲分享(2016年11月18日更新)》,如今將新浪微博爬蟲的代碼也更新一下吧。git 此次主要對爬蟲的種子隊列和去重策略做了優化,並更新了Cookie池的維護,只需拷貝代碼便可實現爬蟲分佈式擴展,適合大規模抓取。 g
相關文章
相關標籤/搜索