GitHub 上有哪些優秀的 Python 爬蟲項目?

GitHub 上有哪些優秀的 Python 爬蟲項目?

大型爬蟲項目:

Photonhtml

一個高速的爬蟲程序。最大的特色是它不是像普通爬蟲那樣只爬取結構和靜態資源,Photon被偏向設計爲信息收集爬蟲,它有很是靈活的規則設置和利於閱讀的導出結果。前端

Photon提供的各類選項可讓用戶按照本身的方式抓取網頁。python

它最厲害的地方在於數據提取git

默認狀況下,Photon在抓取時會提取如下數據:github

網址(範圍內和範圍外的)web

帶參數的網址(http://example.com/gallery.php?id=2正則表達式

情報(電子郵件,社交媒體賬戶,亞馬遜水桶等)sql

文件(pdf,png,xml等)mongodb

JavaScript等文件

基於自定義正則表達式模式的字符串

提取的信息按下圖方式保存。

img

PySpide

一個國人編寫的強大的網絡爬蟲系統並帶有強大的WebUI。採用Python語言編寫,分佈式架構,支持多種數據庫後端,強大的WebUI支持腳本編輯器,任務監視器,項目管理器以及結果查看器。

它能夠實現:

  • python 腳本控制,能夠用任何你喜歡的html解析包(內置 pyquery)
  • WEB 界面編寫調試腳本,起停腳本,監控執行狀態,查看活動歷史,獲取結果產出
  • 數據存儲支持MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL 及 SQLAlchemy
  • 隊列服務支持RabbitMQ, Beanstalk, Redis 和 Kombu
  • 支持抓取 JavaScript 的頁面
  • 組件可替換,支持單機/分佈式部署,支持 Docker 部署
  • 強大的調度控制,支持超時重爬及優先級設置
  • 支持python2&3

實用型爬蟲項目:

financical.py

財務報表下載小助手。

動態示意圖:

img

video_downloader

愛奇藝等主流視頻網站的VIP視頻破解助手(暫只支持PC和手機在線觀看VIP視頻!)

感謝Python3二維碼生成器做者:https://github.com/sylnsfar/qrcode

無需Python3環境,在Windows下,解壓即用!

BSGS_Rent

爬取並分析北上廣深鏈家網租房房源所有數據,得出租金分佈,租房考慮因素等建議(北上廣深租房圖鑑)

主要的文件有:

  • house_data_crawler.py:爬取北上廣深租房房源數據的代碼(帶說明和註釋,須要安裝mongodb)
  • info.py:租房類型和各城市各區域的信息,供house_data_crawler.py調用
  • 北上廣深租房圖鑑.ipynb:Jupyter notebook代碼,對北上廣深租房數據進行分析
  • data_sample.csv:租房數據,這裏只隨機選擇了12000條,每城市3000條

12306

用Python搶火車票簡單代碼,有爬蟲基礎就很好操做。

img

webspider

本系統是一個主要使用python3, celery和requests來爬取職位數據的爬蟲,實現了定時任務,出錯重試,日誌記錄,自動更改Cookies等的功能,並使用ECharts + Bootstrap 來構建前端頁面,來展現爬取到的數據。

img

downloader.py

一個能夠用於下載圖片、視頻、文件的小工具,有下載進度顯示功能。稍加修改便可添加到本身的爬蟲中。

img

biqukan.py

《筆趣看》盜版小說網站,爬取小說工具

webspider

本系統是一個主要使用python3, celery和requests來爬取職位數據的爬蟲,實現了定時任務,出錯重試,日誌記錄,自動更改Cookies等的功能,並使用ECharts + Bootstrap 來構建前端頁面,來展現爬取到的數據。

geetest

爬蟲最大的敵人之一是什麼?沒錯,驗證碼!Geetest做爲提供驗證碼服務的行家,市場佔有率仍是蠻高的。

動態示意圖:

img

Nyspider

各類爬蟲---大衆點評,安居客,58,人人貸,拍拍貸, IT桔子,拉勾網,豆瓣,搜房網,ASO100,氣象數據,貓眼電影,鏈家,PM25.in...

spider

以hao123爲入口頁面,滾動爬取外鏈,收集網址,並記錄網址上的內鏈和外鏈數目,記錄title等信息。windows7 32位上測試,目前每24個小時,可收集數據爲10萬左右

CVPR2019

2019計算機視覺頂會CVPR所有論文PDF論文爬蟲

bdwenku-spider

百度文庫word文章爬取,學生黨超實用!支持txt,word,pdf,ppt類型資源的下載

其它有趣的Python爬蟲小項目:

LiveStream

爬取了西瓜直播(今日頭條旗下APP)各種型遊戲的主播直播數據107.5萬條,並分析直播平臺和遊戲主播行業是否真如咱們想象般的暴利。適合Python爬蟲學習者、Python數據分析學習者、Pandas使用者、數據可視化學習者

Zhihu -Spider

知乎關係網爬蟲

LaborDay

按全國各個城市抓取飛豬「景點門票」欄的景點門票銷售數據,而且分析五一哪些景點會人擠人,哪些景點值得一去。一樣適合Python爬蟲學習者、Python數據分析學習者、Pandas使用者、數據可視化學習者學習。

KrisWu

隨機抓取吳亦凡發表《大碗寬面》微博的微博轉發數據10萬條,並分析該條微博的真假轉發比例,以及你們對於這首歌的情感傾向如何

ESL

爬取了外籍人員招聘網站JobLEADChina上的外籍英語老師招聘數據945條,萬行教師人才網上的英語老師招聘數據5780條,以及微信羣成員信息498條,分析外教教師的招聘情況。洋外教的工資學歷狀況一目瞭然。

Wechat_article_collector

一個微信公衆號文章採集器,用於採集微信公衆號文章並保存至word文檔。

項目很簡單,主要包括如下文件:

  • article_collector.py:主文件,用於爬取公衆號文章以及把文章儲存爲word文檔;
  • add_hyperlinks.py:用於在word文檔中添加超連接
  • gzh.txt:待爬取的公衆號列表
  • 比心.JPG:用來撒狗糧的,不用管

one_hour_spider

一小時入門Python3網絡爬蟲。

內容有包括:

網絡小說下載(靜態網站)-biqukan

優美壁紙下載(動態網站)-unsplash

愛奇藝VIP視頻下載

PUBG-juediqiusheng-data_analysis

項目主要分析絕地求生72萬場比賽的數據,並結合數據給出吃雞攻略,用數據吃雞!

主要的文件爲:

  • 20G 絕地求生比賽數據集分析.ipynb:Jupyter Notebook格式,代碼和說明都在這裏
  • erangel.jpg:絕地海島艾倫格地圖
  • miramar.jpg:熱情沙漠米拉瑪地圖

Weibo_Comment_Pics

這個項目主要是模擬登陸微博手機網頁端,爬取指定微博下面的評論數據,而且下載評論中的表情包圖片

主要的文件爲:

photo_crawler.py:代碼(帶說明和註釋)

cookie.txt:爬取電腦端網頁時的cookie,具備時效性,須要自行更新

XSStrike

XSStrike是一個Cross Site Scripting檢測套件,配備四個手寫解析器,一個智能有效載荷生成器,是一個強大的模糊引擎和一個很是快速的爬蟲。

相關文章
相關標籤/搜索