今天爲你們整理了32個Python爬蟲項目。
整理的緣由是,爬蟲入門簡單快速,也很是適合新入門的小夥伴培養信心。全部連接指向GitHub,祝你們玩得愉快~
QQSpider前端
!git
QQ空間爬蟲,包括日誌、說說、我的信息等,一天可抓取 400 萬條數據。
https://github.com/LiuXingMing/QQSpider
WechatSogougithub
https://github.com/Chyroc/WechatSogou
DouBanSpiderweb
https://github.com/lanbing510/DouBanSpiderredis
https://github.com/LiuRoy/zhihu_spiderbootstrap
https://github.com/airingursb/bilibili-user
SinaSpiderwindows
https://github.com/LiuXingMing/SinaSpider
distribute_crawler多線程
https://github.com/gnemoug/distribute_crawler
CnkiSpider
中國知網爬蟲。設置檢索條件後,執行src/CnkiSpider.py抓取數據,抓取數據存儲在/data目錄下,每一個數據文件的第一行爲字段名稱。
https://github.com/yanzhou/CnkiSpider
LianJiaSpider
鏈家網爬蟲。爬取北京地區鏈家歷年二手房成交記錄。涵蓋鏈家爬蟲一文的所有代碼,包括鏈家模擬登陸代碼。
https://github.com/lanbing510/LianJiaSpider
scrapy_jingdong
京東爬蟲。基於scrapy的京東網站爬蟲,保存格式爲csv。
https://github.com/taizilongxu/scrapy_jingdong
QQ-Groups-Spider
QQ 羣爬蟲。批量抓取 QQ 羣信息,包括羣名稱、羣號、羣人數、羣主、羣簡介等內容,最終生成 XLS(X) / CSV 結果文件。
https://github.com/caspartse/QQ-Groups-Spider
wooyun_public
烏雲爬蟲。烏雲公開漏洞、知識庫爬蟲和搜索。所有公開漏洞的列表和每一個漏洞的文本內容存在MongoDB中,大概約2G內容;若是整站爬所有文本和圖片做爲離線查詢,大概須要10G空間、2小時(10M電信帶寬);爬取所有知識庫,總共約500M空間。漏洞搜索使用了Flask做爲web server,bootstrap做爲前端。
https://github.com/hanc00l/wooyun_public
spider
hao123網站爬蟲。以hao123爲入口頁面,滾動爬取外鏈,收集網址,並記錄網址上的內鏈和外鏈數目,記錄title等信息,windows7 32位上測試,目前每24個小時,可收集數據爲10萬左右。
https://github.com/simapple/spider
findtrip
機票爬蟲(去哪兒和攜程網)。Findtrip是一個基於Scrapy的機票爬蟲,目前整合了國內兩大機票網站(去哪兒 + 攜程)。
https://github.com/fankcoder/findtrip
163spider
基於requests、MySQLdb、torndb的網易客戶端內容爬蟲。
https://github.com/leyle/163spider
doubanspiders
豆瓣電影、書籍、小組、相冊、東西等爬蟲集。
https://github.com/fanpei91/doubanspiders
baidu-music-spider
百度mp3全站爬蟲,使用redis支持斷點續傳。
https://github.com/Shu-Ji/baidu-music-spider
tbcrawler
淘寶和天貓的爬蟲,能夠根據搜索關鍵詞,物品id來抓去頁面的信息,數據存儲在MongoDB。
https://github.com/pakoo/tbcrawler
stockholm
一個股票數據(滬深)爬蟲和選股策略測試框架。根據選定的日期範圍抓取全部滬深兩市股票的行情數據。支持使用表達式定義選股策略。支持多線程處理。保存數據到JSON文件、CSV文件。
https://github.com/benitoro/stockholm
BaiduyunSpider
百度雲盤爬蟲。
https://github.com/k1995/BaiduyunSpider
Spider
社交數據爬蟲。支持微博,知乎,豆瓣。
https://github.com/Qutan/Spider
proxy pool
Python爬蟲代理IP池(proxy pool)。
https://github.com/jhao104/proxy_pool
music-163
爬取網易雲音樂全部歌曲的評論。
https://github.com/RitterHou/music-163
jandan_spider
爬取煎蛋妹紙圖片。
https://github.com/kulovecc/jandan_spider
CnblogsSpider
Cnblogs列表頁爬蟲。
https://github.com/jackgitgz/CnblogsSpider
spider_smooc
爬取慕課網視頻。
https://github.com/qiyeboy/spider_smooc
CnkiSpider
中國知網爬蟲。
https://github.com/yanzhou/CnkiSpider
knowsecSpider2
知道創宇爬蟲題目。
https://github.com/littlethunder/knowsecSpider2
aiss-spider
愛絲APP圖片爬蟲。
https://github.com/x-spiders/aiss-spider
SinaSpider
動態IP解決新浪的反爬蟲機制,快速抓取內容。
https://github.com/szcf-weiya/SinaSpider
csdn-spider
爬取CSDN上的博客文章。
https://github.com/Kevinsss/csdn-spider
ProxySpider
爬取西刺上的代理IP,並驗證代理可用性。
https://github.com/changetjut/ProxySpiderapp