若是你從事數據科學領域,那麼獲取數據對於你來講就不可或缺,網絡爬蟲這一關你必須得過,而說到爬蟲,大多數人想到的就是Python,由於python不只編寫調試方便,並且可以快速入門,最主要的是相關的類庫十分豐富python
今天,要和你們推薦的這個項目就是和Python編程有關的,這個項目介紹瞭如何用 Python 登陸各大網站,並用簡單的爬蟲獲取一些有用數據,目前該項目已經提供了知乎、B 站、和豆瓣等 18 個網站的登陸方法。git
模擬登錄基本採用的是直接登陸或者使用selenium+webdriver的方式,有的網站直接登陸難度很大,好比qq空間,bilibili等若是採用selenium就相對輕鬆一些。github
每個網站都會有對應的登陸代碼,有的還有數據的爬取代碼。下面咱們以淘寶爲例:web
爬取淘寶各子標籤,按銷量排名商品信息,按分類保存至MongoDB編程
經過pandas進行數據分析網絡
將商品在各省分佈、銷量排行、地圖分佈等經過matplotlib繪圖顯示測試
以上是淘寶爬蟲相關的文件:網站
taobao.py爲模擬登陸調試
剩下的文件爲爬蟲視頻
模擬登錄的代碼以下:
Bilibili自動登陸測試正常,成功率98%
若是你還想查看更多示例,能夠前往GitHub詳情頁,並且建立者也鼓勵廣大開發者提 Issue 或 Pull Requests。
項目地址:https://github.com/CriseLYJ/awesome-python-login-model
來源:開源最前線
歡迎關注個人公衆號:【編程資源庫】 ,關注後回覆「我來自互聯網」便可領取2000G視頻教程