python網頁爬蟲--京東家電版塊

雙十二就要到了,瀏覽京東商城也瀏覽的比較多,忽然想到寫一個爬蟲來爬取一些「京東家電」的數據,可能會對雙十二的活動有點預見性,也挺好玩的。json

一、選定爬取的模塊  京東商城--京東家電--家用電器--你們電瀏覽器

二、爬取「平板電視」這一模塊的數據插件

我用的是火狐瀏覽器的HttpFox插件來查看網頁的加載信息。當進入「平板電視」這一模塊的時候,網頁的加載信息是這樣的:分頁

 

打開第一個「GET」進來的網頁信息,而後查看該加載的網頁的「Header」信息,發現該網頁是從新加載的,從「Referer」可看出該網頁的新的連接:im

三、打開"Referer"的連接信息,驗證一下:數據

 

 

四、打開幾個商品的連接,發現網頁的URL有必定的規律,像是這樣的網址:商城

地址中只是數字發生着變化,因此這必定有貓膩,因此進一步去觀察HttpFox的信息。xpath

下面是加載「平板電視」電視的時候,HttpFox生成的信息,找到第一條的json信息,發現了須要獲得的數字:img

五、將網頁往下拉,能夠看到分頁,這就本身觀察URL就能夠了,簡單的規律,每頁的URL改變的只是頁碼的數字。數字

六、因此爬蟲的大致思路就出來了:

  (1)獲取json數值

  (2)組合生成xpath

  (3)匹配信息

  (4)去重、規整等處理數據

  (5)數據導到本地

七、這樣咱們就能夠爬取23頁的數據了,並且其餘的京東網頁作小的修改就能夠了。下面該上代碼了:不知道今晚能不能寫出來~

相關文章
相關標籤/搜索