QQ空間爬蟲分享(一天可抓取 400 萬條數據)

代碼請移步GitHub:QQSpider 爬蟲功能: QQSpider 使用廣度優先策略爬取QQ空間中的我的信息、日誌、說說、好友四個方面的信息,詳細可見數據庫說明。 判重使用「內存位」判重,理論上億數量級的QQ可瞬間判重,內存只佔用400M+。 爬蟲速度可達到單機天天400萬條數據以上(具體要考慮網速、網絡帶寬、穩定性等緣由。我在學校是400萬+,但在公司那邊卻只有六成的速度,普通家庭網絡可能會
相關文章
相關標籤/搜索