hello,小夥伴們你們好,今天給你們推薦的開源項目是 :CxSpider
,這個開源整合了做者本身的採集過的全部產品,包括微博、Twitter、玩加、知網、虎牙、鬥魚、B站、WeGame、貓眼、豆瓣、安居客、居理新房感興趣的小夥伴能夠下載看看,應該能夠給你提供一個可借鑑的思路。html
Project
爬蟲詳情
1. Twitter用戶信息爬蟲(twitter.user_info)
@author ChangXing @version 4.1 @create 2017.12.25 @revise 2020.06.08mysql
使用第三方模塊twitter-scraper採集Twitter用戶信息;由於該模塊採集的粉絲數和關注數可能存在誤差,所以再經過Selenium抓取Twitter用戶信息,以更正該模塊採集的數量。git
- 採集信息:粉絲數和關注數爲twitter-scraper採集並配合Selenium爬蟲檢查,其餘字段爲twitter-scraper採集。
- 應用配置:無需使用代理IP,須要使用Selenium
2. Twitter用戶推文爬蟲(twitter.user_tweet)
@author ChangXing @version 4.0 @create 2017.12.30 @revise 2020.06.08github
微博熱搜榜實時爬蟲(weibo.hot_ranking)
@author ChangXing @Version 1.1 @create 2020.05.29 @revise 2020.06.08sql
定時採集微博熱搜榜。ide
- 採集信息:每5分鐘採集1次,每次約50條記錄→天天約14400條記錄
- 數據清洗:熱搜榜置頂熱搜(固定第1條)和廣告熱搜(標註推薦)
- 應用配置:無需使用代理IP、無需使用Selenium
環境變量
爬蟲功能的正常使用須要配置以下環境變量,能夠直接修改environment.py中的環境變量值,也能夠修改配置Json文件。學習
環境配置
Python/Pip環境
- Python >= 3.8.0
- requests >= 2.23.0
- idna >= 2.9
- urllib3 >= 1.25.9
- certifi >= 2020.4.5.1
- chardet >= 3.0.4
- bs4 >= 0.0.1
- beautifulsoup4 >= 4.9.0
- soupsieve >= 2.0
- apscheduler >= 3.6.3
- pytz >= 2019.3
- six >= 1.14.0
- tzlocal >= 2.1
- setuptools
- mysql-connector >= 2.2.9
- lxml >= 4.5.0
- selenium >= 3.141.0 (用於Selenium爬蟲)
- urllib3 >= 1.25.9
- twitter-scraper >= 0.4.1 (用於Twitter用戶信息爬蟲)
- requests-html >= 0.10.0
- MachanicalSoup >= 0.12.0
開源地址:https://github.com/ChangxingJiang/CxSpiderurl
今天的推薦不知道你們喜歡嗎?若是大家喜歡話,請在文章底部留言或點贊,以表示對個人支持,大家的留言,點贊,轉發關注是我持續更新的動力哦!.net
關注公衆號回覆:"1024
",免費領取一大波學習資源,先到先得哦!代理