一小時爬千萬數據的新浪微博爬蟲

爬蟲功能: 此項目和QQ空間爬蟲類似,主要爬取新浪微博用戶的個人信息、微博信息、粉絲和關注(詳細見此)。 代碼獲取新浪微博Cookie進行登錄,可通過多賬號登錄來防止新浪的反扒(用來登錄的賬號可從淘寶購買,一塊錢七個)。 項目爬的是新浪微博wap站,結構簡單,速度應該會比較快,而且反扒沒那麼強,缺點是信息量會稍微缺少一些(可見爬蟲福利:如何爬wap站)。 爬蟲抓取微博的速度可以達到 1300萬/天
相關文章
相關標籤/搜索