微信、知乎、新浪等主流網站的模擬登錄爬取方法
摘要:微信、知乎、新浪等主流網站的模擬登錄爬取方法。前端
網絡上有形形色色的網站,不一樣類型的網站爬蟲策略不一樣,難易程度也不同。從是否須要登錄這方面來講,一些簡單網站不須要登錄就能夠爬,好比以前爬過的貓眼電影、東方財富網等。有一些網站須要先登錄才能爬,好比知乎、微信等。這類網站在模擬登錄時須要處理驗證碼、js 加密參數這些問題,爬取難度會大不少。費很大力氣登錄進去後才能爬取想要的內容,很花時間。web
是否是必定要本身動手去實現每個網站的模擬登錄方法呢,從效率上來說,其實大可沒必要,已經有前人替咱們造好輪子了。微信
最近發現一個神庫,彙總了數十個主流網站的模擬登錄方法:網絡
知乎
微信網頁版登陸並獲取好友列表
Bilibili
Facebook
無需身份驗證便可抓取Twitter前端API
微博網頁版
QQZone
CSDN
淘寶
Baidu
果殼
JingDong 模擬登陸
163mail
拉鉤
豆瓣
Baidu2
獵聘網
Github
爬取圖蟲相應的圖片
網易雲音樂
糗事百科
這些網站基本採用的是直接登陸或者 selenium+webdriver 方式。每個網站都有完整的模擬登錄代碼,拿來就能夠用到本身的爬蟲中。學習
下面咱們來測試一下。測試
先說說很難爬的「知乎」,假如咱們想爬取知乎主頁的 HTML 內容,就必需要先登錄才能爬,否則看不到這個界面。下面來簡單梳理一下流程。網站
圖片描述加密
知乎須要手機號才能註冊登錄。爲了方便測試,能夠隨便找個手機號,手機號到哪兒去找呢,兩個神網站保護你的隱私 這篇文章裏介紹了一個免費電話號碼網站,用上面的手機號能夠成功註冊。spa
圖片描述3d
順利登陸後就能夠進入主頁了。
下面,咱們用這個庫提供的代碼來模擬登錄,輸出主頁 HTML 內容做測試。操做很簡單,只須要輸入手機號、密碼和驗證碼就能夠了。
成功登錄後,接下來就能夠作一些有意思的事了。好比曾有人爬取全部知乎帳號的信息,分析了知乎用戶羣體畫像。
是否是有點意思。
再來看看微信。用上面的微信代碼能夠把所有微信好友信息爬取下來,好比:暱稱、性別、地域、個性簽名。接着能夠分析一下你的朋友圈是什麼樣的,應該會頗有趣。
還能夠爬 B 站:
還能夠爬鏈家租房信息:
還有不少實用有趣的內容,就不一一羅列了,感興趣的話能夠試試。不要悶頭造輪子,多擡擡頭會發現你在作/想作的東西,別人早已經弄好了,拿來用或者參考學習都是件好事。