在不一樣的論壇和問答中,常常會遇到新浪微博的數據採集爬蟲程序怎麼寫,或是已經完成了某部分後面須要協助幫助怎麼作,楚江數據結合網上資料整理了幾個微博爬蟲開源項目。python
SinaSpider- 基於scrapy和redis的分佈式微博爬蟲。SinaSpider主要爬取新浪微博的我的信息、微博數據、關注和粉絲。數據庫設置 Information、Tweets、Follows、Fans四張表。爬蟲框架使用Scrapy,使用scrapy_redis和Redis實現分佈 式。此項目實現將單機的新浪微博爬蟲重構成分佈式爬蟲。mysql
sina_reptile- 這是一個關於sina微博的爬蟲,採用python開發,並修改了其sdk中的bug,採用mongodb存儲,實現了多進程爬取任務。 獲取新浪微博1000w用戶的基本信息和每一個爬取用戶最近發表的50條微博,使用python編寫,多進程爬取,將數據存儲在了mongodb中redis
sina_weibo_crawler- 基於urlib2及beautifulSoup實現的微博爬蟲系統。利用urllib2加beautifulsoup爬取新浪微博,數據庫採用mongodb,原始關係以txt文件存儲,原始內容以csv形式存儲,後期直接插入mongodb數據庫sql
sina-weibo-crawler-方便擴展的新浪微博爬蟲。WCrawler.crawl()函數只須要一個url參數,返回的用戶粉絲、關注裏面都有url,能夠向外擴展爬取,而且也能夠自定義一些過濾規則。mongodb
weibo_crawler-基於Python、BeautifulSoup、mysql微博搜索結果爬取工具。本工具使用模擬登陸來實現微博搜索結果的爬取。數據庫
SinaMicroblog_Creeper-Spider_VerificationCode- 新浪微博爬蟲,得到每一個用戶和關注的,粉絲的用戶id存入xml文件中,BFS,能夠模擬登錄,模擬登錄中的驗證碼會抓取下來讓用戶輸入。框架
不過在這以前,一些功能和語法藥瞭解,好比list,dict,切片,條件判斷,文件讀寫操做等;
網頁的基本知識,分析語言能力要具有;開發者工具會熟練運用;scrapy