python網頁爬蟲--京東家電版塊

時間 2019-11-19

標籤 python 網頁爬蟲京東家電版塊欄目 Python 简体版

原文原文鏈接

雙十二就要到了，瀏覽京東商城也瀏覽的比較多，忽然想到寫一個爬蟲來爬取一些「京東家電」的數據，可能會對雙十二的活動有點預見性，也挺好玩的。json

一、選定爬取的模塊京東商城--京東家電--家用電器--你們電瀏覽器

二、爬取「平板電視」這一模塊的數據插件

我用的是火狐瀏覽器的HttpFox插件來查看網頁的加載信息。當進入「平板電視」這一模塊的時候，網頁的加載信息是這樣的：分頁

打開第一個「GET」進來的網頁信息，而後查看該加載的網頁的「Header」信息，發現該網頁是從新加載的，從「Referer」可看出該網頁的新的連接：im

三、打開"Referer"的連接信息，驗證一下：數據

四、打開幾個商品的連接，發現網頁的URL有必定的規律，像是這樣的網址：商城

地址中只是數字發生着變化，因此這必定有貓膩，因此進一步去觀察HttpFox的信息。xpath

下面是加載「平板電視」電視的時候，HttpFox生成的信息，找到第一條的json信息，發現了須要獲得的數字：img

五、將網頁往下拉，能夠看到分頁，這就本身觀察URL就能夠了，簡單的規律，每頁的URL改變的只是頁碼的數字。數字

六、因此爬蟲的大致思路就出來了：

　　（1）獲取json數值

　　（2）組合生成xpath

　　（3）匹配信息

　　（4）去重、規整等處理數據

　　（5）數據導到本地

七、這樣咱們就能夠爬取23頁的數據了，並且其餘的京東網頁作小的修改就能夠了。下面該上代碼了：不知道今晚能不能寫出來~

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。