登陸淘寶提取商品數據

圖片 圖片



前言html

淘寶網是一個衆所周知的一個電商平臺,基本上什麼都能找到。chrome

想業餘作電商賺點小錢或買點東西,就須要對比平臺上各個賣家的商品信息,所謂貨比三家,爲商品定一個合理的價位或淘一個合理,性價比較高的寶貝。網絡


如今淘寶要登陸才能提取到數據,這個腦闊疼啊,沒事,道高一尺魔高一丈。ide


效果函數


小編只提取了,商品名,價格,連接做爲示例。google

想提取其餘的數據,能夠在提取函數哪裏直接加就行哦spa

https://v.qq.com/x/page/h0903rdx14h.html 圖片 圖片 圖片


源碼獲取
3d


關注公衆號「木下學Python」,回覆「模擬登陸爬取淘寶」獲取。是‘錄’,別錯了噢~htm


環境blog

圖片


Python3.7

selenium 3.141.0

chrome 73.0.3683.103(正式版本)(64 位)

chromedriver 下載連接:

https://sites.google.com/a/chromium.org/chromedriver/


登陸

使用淘寶帳號,滑動驗證碼很容易被識別,因此使用了微博帳號,填寫用戶名,密碼,驗證碼,商品名便可。

用戶名,密碼能夠在程序中直接設置好,就不用手動輸入了。

驗證碼小編原本想找到連接下載,用 pytteract 識別的,就不用輸驗證碼,只輸入商品名,其餘全自動。

驗證碼 xpath 表達式沒問題,可到程序裏就是提取不出來,因此就選擇手動了。

圖片


圖片


輸入驗證碼後登錄成功了。

有時候網絡問題,會超時,從新運行幾回便可。


提取

圖片


selenium 登陸後,獲取網頁源代碼,使用 xpath 提取,不使用 selenium 的方法了,能夠提升一點速度。


翻頁


圖片


翻頁某些頁面會翻頁失敗,就跳過。


Finally

圖片


最後獲得的數據寫入 csv 文件,就獲得想要的數據了。

從結果看只須要 3 分鐘,就能獲得 4000 多條商品信息。

相關文章
相關標籤/搜索