登陸淘寶提取商品數據

時間 2021-08-14

標籤 html chrome 網絡 ide 函數 google spa 3d htm blog 欄目 HTML 简体版

原文原文鏈接

前言html

淘寶網是一個衆所周知的一個電商平臺，基本上什麼都能找到。chrome

想業餘作電商賺點小錢或買點東西，就須要對比平臺上各個賣家的商品信息，所謂貨比三家，爲商品定一個合理的價位或淘一個合理，性價比較高的寶貝。網絡

如今淘寶要登陸才能提取到數據，這個腦闊疼啊，沒事，道高一尺魔高一丈。ide

效果函數

小編只提取了，商品名，價格，連接做爲示例。google

想提取其餘的數據，能夠在提取函數哪裏直接加就行哦spa

https://v.qq.com/x/page/h0903rdx14h.html

源碼獲取
3d

關注公衆號「木下學Python」，回覆「模擬登陸爬取淘寶」獲取。是‘錄’，別錯了噢~htm

環境blog

Python3.7

selenium 3.141.0

chrome 73.0.3683.103(正式版本)(64 位)

chromedriver 下載連接：

https://sites.google.com/a/chromium.org/chromedriver/

登陸

使用淘寶帳號，滑動驗證碼很容易被識別，因此使用了微博帳號，填寫用戶名，密碼，驗證碼，商品名便可。

用戶名，密碼能夠在程序中直接設置好，就不用手動輸入了。

驗證碼小編原本想找到連接下載，用 pytteract 識別的，就不用輸驗證碼，只輸入商品名，其餘全自動。

驗證碼 xpath 表達式沒問題，可到程序裏就是提取不出來，因此就選擇手動了。

輸入驗證碼後登錄成功了。

有時候網絡問題，會超時，從新運行幾回便可。

提取

selenium 登陸後，獲取網頁源代碼，使用 xpath 提取，不使用 selenium 的方法了，能夠提升一點速度。

翻頁

翻頁某些頁面會翻頁失敗，就跳過。

Finally

最後獲得的數據寫入 csv 文件，就獲得想要的數據了。

從結果看只須要 3 分鐘，就能獲得 4000 多條商品信息。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。