淘寶、知乎、豆瓣......18個網站的Python爬蟲登陸彙總,都在這個開源項目裏

若是你從事數據科學領域,那麼獲取數據對於你來講就不可或缺,網絡爬蟲這一關你必須得過,而說到爬蟲,大多數人想到的就是Python,由於python不只編寫調試方便,並且可以快速入門,最主要的是相關的類庫十分豐富python

今天,要和你們推薦的這個項目就是和Python編程有關的,這個項目介紹瞭如何用 Python 登陸各大網站,並用簡單的爬蟲獲取一些有用數據,目前該項目已經提供了知乎、B 站、和豆瓣等 18 個網站的登陸方法。git

模擬登錄基本採用的是直接登陸或者使用selenium+webdriver的方式,有的網站直接登陸難度很大,好比qq空間,bilibili等若是採用selenium就相對輕鬆一些。github

每個網站都會有對應的登陸代碼,有的還有數據的爬取代碼。下面咱們以淘寶爲例:web

爬取淘寶各子標籤,按銷量排名商品信息,按分類保存至MongoDB編程

經過pandas進行數據分析網絡

將商品在各省分佈、銷量排行、地圖分佈等經過matplotlib繪圖顯示測試

以上是淘寶爬蟲相關的文件:網站

taobao.py爲模擬登陸調試

剩下的文件爲爬蟲視頻

模擬登錄的代碼以下:

Bilibili自動登陸測試正常,成功率98%

若是你還想查看更多示例,能夠前往GitHub詳情頁,並且建立者也鼓勵廣大開發者提 Issue 或 Pull Requests。

項目地址:https://github.com/CriseLYJ/awesome-python-login-model

 

來源:開源最前線

歡迎關注個人公衆號:【編程資源庫】 ,關注後回覆「我來自互聯網」便可領取2000G視頻教程

相關文章
相關標籤/搜索