新浪微博爬蟲分享(一天可抓取 1300 萬條數據)

代碼請移步GitHub:SinaSpider 爬蟲功能: 此項目和QQ空間爬蟲相似,主要爬取新浪微博用戶的我的信息、微博信息、粉絲和關注(詳細見此)。 代碼獲取新浪微博Cookie進行登陸,可經過多帳號登陸來防止新浪的反扒(用來登陸的帳號可從淘寶購買,一塊錢七個)。 項目爬的是新浪微博wap站,結構簡單,速度應該會比較快,並且反扒沒那麼強,缺點是信息量會稍微缺乏一些(可見爬蟲福利:如何爬wap站)
相關文章
相關標籤/搜索