前言html
淘寶網是一個衆所周知的一個電商平臺,基本上什麼都能找到。chrome
想業餘作電商賺點小錢或買點東西,就須要對比平臺上各個賣家的商品信息,所謂貨比三家,爲商品定一個合理的價位或淘一個合理,性價比較高的寶貝。網絡
如今淘寶要登陸才能提取到數據,這個腦闊疼啊,沒事,道高一尺魔高一丈。ide
效果函數
小編只提取了,商品名,價格,連接做爲示例。google
想提取其餘的數據,能夠在提取函數哪裏直接加就行哦spa
https://v.qq.com/x/page/h0903rdx14h.html源碼獲取
3d
關注公衆號「木下學Python」,回覆「模擬登陸爬取淘寶」獲取。是‘錄’,別錯了噢~htm
環境blog
Python3.7
selenium 3.141.0
chrome 73.0.3683.103(正式版本)(64 位)
chromedriver 下載連接:
https://sites.google.com/a/chromium.org/chromedriver/
登陸
使用淘寶帳號,滑動驗證碼很容易被識別,因此使用了微博帳號,填寫用戶名,密碼,驗證碼,商品名便可。
用戶名,密碼能夠在程序中直接設置好,就不用手動輸入了。
驗證碼小編原本想找到連接下載,用 pytteract 識別的,就不用輸驗證碼,只輸入商品名,其餘全自動。
驗證碼 xpath 表達式沒問題,可到程序裏就是提取不出來,因此就選擇手動了。
輸入驗證碼後登錄成功了。
有時候網絡問題,會超時,從新運行幾回便可。
提取
selenium 登陸後,獲取網頁源代碼,使用 xpath 提取,不使用 selenium 的方法了,能夠提升一點速度。
翻頁
翻頁某些頁面會翻頁失敗,就跳過。
Finally
最後獲得的數據寫入 csv 文件,就獲得想要的數據了。
從結果看只須要 3 分鐘,就能獲得 4000 多條商品信息。