小編整理了一些爬蟲的案例,代碼都整理出來了~javascript
先來看看有哪些項目呢:html
python爬蟲小工具(文件下載助手)前端
爬蟲實戰(筆趣看小說下載)java
爬蟲實戰(VIP視頻下載)python
爬蟲實戰(百度文庫文章下載)git
爬蟲實戰(《帥啊》網帥哥圖片下載)github
爬蟲實戰(構建代理IP池)數據庫
爬蟲實戰(《火影忍者》漫畫下載)後端
爬蟲實戰(財務報表下載小助手)服務器
爬蟲實戰(抖音App視頻下載)
爬蟲實戰(GEETEST驗證碼破解)
爬蟲實戰(12306搶票小助手)
爬蟲實戰(百萬英雄答題輔助系統)
爬蟲實戰(網易雲音樂批量下載)
爬蟲實戰(B站視頻和彈幕批量下載)
爬蟲實戰(京東商品曬單圖下載)
爬蟲實戰(正方教務管理系統爬蟲)
怎麼樣?是否是火燒眉毛的想本身動手試試了呢?
在學習中有迷茫不知如何學習的朋友小編推薦一個學Python的學習q u n 227 -435- 450能夠來了解一塊兒進步一塊兒學習!免費分享視頻資料
爬蟲小工具
文件下載小助手
一個能夠用於下載圖片、視頻、文件的小工具,有下載進度顯示功能。稍加修改便可添加到本身的爬蟲中。
代碼展現:
爬蟲實戰
《筆趣看》盜版小說網站,爬取小說工具
第三方依賴庫安裝:
pip3 install beautifulsoup4
使用方法:
python biqukan.py
代碼展現:
愛奇藝等主流視頻網站的VIP視頻破解助手(暫只支持PC和手機在線觀看VIP視頻!)
運行源碼須要搭建Python3環境,並安裝相應第三方依賴庫:
pip3 install -r requirements.txt
使用方法:
python movie_downloader.py
運行環境:
Windows, Python3
Linux, Python3
Mac, Python3
代碼展現:
百度文庫word文章爬取
代碼不完善,沒有進行打包,不具通用性,純屬娛樂,之後有時間會完善。
代碼展現:
爬取《帥啊》網,帥哥圖片
運行平臺: Windows
Python版本: Python3.x
IDE: Sublime text3
爲了也可以學習到新知識,本次爬蟲教程使用requests第三方庫,這個庫可不是Python3內置的urllib.request庫,而是一個強大的基於urllib3的第三方庫。
代碼展現:
構建代理IP池
代碼展現:
使用Scrapy爬取《火影忍者》漫畫
代碼能夠爬取整個《火影忍者》漫畫全部章節的內容,保存到本地。更改地址,能夠爬取其餘漫畫。保存地址能夠在代碼中修改。
代碼展現:
《王者榮耀》推薦出裝查詢小助手
網頁爬取已經會了,想過爬取手機APP裏的內容嗎?
代碼展現:
財務報表下載小助手
爬取的數據存入數據庫會嗎?《跟股神巴菲特學習炒股之財務報表入庫(MySQL)》也許能給你一些思路。
代碼展現:
抖音App視頻下載
抖音App的視頻下載,就是普通的App爬取。
代碼展現:
GEETEST驗證碼破解
爬蟲最大的敵人之一是什麼?沒錯,驗證碼!Geetest做爲提供驗證碼服務的行家,市場佔有率仍是蠻高的。遇到Geetest提供的滑動驗證碼怎麼破?授人予魚不如授人予漁,接下來就爲你們呈現本教程的精彩內容。
代碼展現:
用Python搶火車票簡單代碼
能夠本身慢慢豐富,蠻簡單,有爬蟲基礎很好操做。
代碼展現:
baiwan:百萬英雄輔助答題
看了網上不少的教程都是經過OCR識別的,這種方法的優勢在於通用性強。不一樣的答題活動均可以參加,可是缺點也明顯,速度有限,而且若是經過調用第三方OCR,有次數限制。可是使用本教程提到的數據接口。咱們能很容易的獲取數據,速度快,可是接口是變化的,須要及時更新。
代碼展現:
功能介紹:
服務器端,使用Python(baiwan.py)經過抓包得到的接口獲取答題數據,解析以後經過百度知道搜索接口匹配答案,將最終匹配的結果寫入文件(file.txt)。
Node.js(app.js)每隔1s讀取一次file.txt文件,並將讀取結果經過socket.io推送給客戶端(index.html)。
親測答題延時在3s左右。
聲明:沒作事後端和前端,花了一天時間,現學現賣弄好的,javascript也是現看現用,百度的程序,調試調試而已。可能有不少用法比較low的地方,用法不對,請勿見怪,有大牛感興趣,能夠自行完善。
Netease:根據歌單下載網易雲音樂
功能介紹:
根據music_list.txt文件裏的歌單的信息下載網易雲音樂,將本身喜歡的音樂進行批量下載。
代碼展現:
bilibili:B站視頻和彈幕批量下載
下載B站視頻和彈幕,將xml原生彈幕轉換爲ass彈幕文件,支持plotplayer等播放器的彈幕播放。
代碼展現:
使用說明:
python bilibili.py -d 貓 -k 貓 -p 10
三個參數:
-d保存視頻的文件夾名
-kB站搜索的關鍵字
-p下載搜索結果前多少頁
京東商品曬單圖下載
使用說明:
python jd.py -k 芒果
三個參數:
-d保存圖片的路徑,默認爲fd.py文件所在文件夾
-k搜索關鍵詞
-n 下載商品的曬單圖個數,即n個商店的曬單圖
代碼展現:
對正方教務管理系統我的課表,學生成績,績點等簡單爬取
依賴環境
python 3.6
python庫
http請求:requests,urllib
數據提取:re,lxml,bs4
存儲相關:os,sys
驗證碼處理:PIL
下載安裝
在終端輸入以下命令:
git clone git@github.com:Jack-Cherish/python-spider.git
使用方法
安裝依賴包
pip install -r requirements.txt
運行
在當前目錄下輸入:
cd zhengfang_system_spider
python spider.py
運行爬蟲,按提示輸入學校教務網,學號,密碼,輸入驗證碼
稍等幾秒鐘,當前ZhengFang_System_Spider文件夾下就會生成zhengfang.txt
我的課表,成績績點均已保存到該文本文件中
代碼展現: