新浪微博內容數據採集爬蟲怎麼寫

時間 2019-12-04

原文原文鏈接

在不一樣的論壇和問答中，常常會遇到新浪微博的數據採集爬蟲程序怎麼寫，或是已經完成了某部分後面須要協助幫助怎麼作，楚江數據結合網上資料整理了幾個微博爬蟲開源項目。python

SinaSpider- 基於scrapy和redis的分佈式微博爬蟲。SinaSpider主要爬取新浪微博的我的信息、微博數據、關注和粉絲。數據庫設置 Information、Tweets、Follows、Fans四張表。爬蟲框架使用Scrapy，使用scrapy_redis和Redis實現分佈式。此項目實現將單機的新浪微博爬蟲重構成分佈式爬蟲。mysql

sina_reptile- 這是一個關於sina微博的爬蟲，採用python開發，並修改了其sdk中的bug，採用mongodb存儲，實現了多進程爬取任務。獲取新浪微博1000w用戶的基本信息和每一個爬取用戶最近發表的50條微博,使用python編寫，多進程爬取，將數據存儲在了mongodb中redis

sina_weibo_crawler- 基於urlib2及beautifulSoup實現的微博爬蟲系統。利用urllib2加beautifulsoup爬取新浪微博,數據庫採用mongodb，原始關係以txt文件存儲，原始內容以csv形式存儲，後期直接插入mongodb數據庫sql

sina-weibo-crawler-方便擴展的新浪微博爬蟲。WCrawler.crawl()函數只須要一個url參數，返回的用戶粉絲、關注裏面都有url，能夠向外擴展爬取，而且也能夠自定義一些過濾規則。mongodb

weibo_crawler-基於Python、BeautifulSoup、mysql微博搜索結果爬取工具。本工具使用模擬登陸來實現微博搜索結果的爬取。數據庫

SinaMicroblog_Creeper-Spider_VerificationCode- 新浪微博爬蟲，得到每一個用戶和關注的，粉絲的用戶id存入xml文件中，BFS，能夠模擬登錄，模擬登錄中的驗證碼會抓取下來讓用戶輸入。框架

不過在這以前，一些功能和語法藥瞭解，好比list，dict，切片，條件判斷，文件讀寫操做等；
網頁的基本知識，分析語言能力要具有；開發者工具會熟練運用；scrapy

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。