GitHub:爬蟲集合:微博、Twitter、玩加、知網、虎牙、鬥魚、B站、WeGame、貓眼、豆瓣、安居客、居理新房等

hello,小夥伴們你們好,今天給你們推薦的開源項目是 :CxSpider,這個開源整合了做者本身的採集過的全部產品,包括微博、Twitter、玩加、知網、虎牙、鬥魚、B站、WeGame、貓眼、豆瓣、安居客、居理新房感興趣的小夥伴能夠下載看看,應該能夠給你提供一個可借鑑的思路。html

Project


爬蟲詳情


1. Twitter用戶信息爬蟲(twitter.user_info)

@author ChangXing @version 4.1 @create 2017.12.25 @revise 2020.06.08mysql

使用第三方模塊twitter-scraper採集Twitter用戶信息;由於該模塊採集的粉絲數和關注數可能存在誤差,所以再經過Selenium抓取Twitter用戶信息,以更正該模塊採集的數量。git

  • 採集信息:粉絲數和關注數爲twitter-scraper採集並配合Selenium爬蟲檢查,其餘字段爲twitter-scraper採集。
  • 應用配置:無需使用代理IP,須要使用Selenium

2. Twitter用戶推文爬蟲(twitter.user_tweet)

@author ChangXing @version 4.0 @create 2017.12.30 @revise 2020.06.08github

微博熱搜榜實時爬蟲(weibo.hot_ranking)


@author ChangXing @Version 1.1 @create 2020.05.29 @revise 2020.06.08sql

定時採集微博熱搜榜。ide

  • 採集信息:每5分鐘採集1次,每次約50條記錄→天天約14400條記錄
  • 數據清洗:熱搜榜置頂熱搜(固定第1條)和廣告熱搜(標註推薦)
  • 應用配置:無需使用代理IP、無需使用Selenium

環境變量


爬蟲功能的正常使用須要配置以下環境變量,能夠直接修改environment.py中的環境變量值,也能夠修改配置Json文件。學習

環境配置


Python/Pip環境

  • Python >= 3.8.0
  • requests >= 2.23.0
    • idna >= 2.9
    • urllib3 >= 1.25.9
    • certifi >= 2020.4.5.1
    • chardet >= 3.0.4
  • bs4 >= 0.0.1
    • beautifulsoup4 >= 4.9.0
    • soupsieve >= 2.0
  • apscheduler >= 3.6.3
    • pytz >= 2019.3
    • six >= 1.14.0
    • tzlocal >= 2.1
    • setuptools
  • mysql-connector >= 2.2.9
  • lxml >= 4.5.0
  • selenium >= 3.141.0 (用於Selenium爬蟲)
    • urllib3 >= 1.25.9
  • twitter-scraper >= 0.4.1 (用於Twitter用戶信息爬蟲)
    • requests-html >= 0.10.0
    • MachanicalSoup >= 0.12.0

開源地址:https://github.com/ChangxingJiang/CxSpiderurl

今天的推薦不知道你們喜歡嗎?若是大家喜歡話,請在文章底部留言或點贊,以表示對個人支持,大家的留言,點贊,轉發關注是我持續更新的動力哦!.net

關注公衆號回覆:"1024",免費領取一大波學習資源,先到先得哦!代理

相關文章
相關標籤/搜索