Python爬蟲實戰講解:某東商品評論信息採集流程分析

前言

電商平臺的小爬蟲,經過網站的搜索接口拿到商品ID,根據商品ID採集對應的評論。html

一、目標網站:網絡

aHR0cHM6Ly9zZWFyY2guamQuY29tL1NlYXJjaD9rZXl3b3JkPSVFOSVBMyU5RiVFNSU5MyU4MQ==

搜索的關鍵詞可自行更改,文章這裏以食品爲例。學習

二、主要用到的技能以下:測試

  • xpath頁面解析,提取字段信息
  • url編碼,設置referer反爬
  • 對比多個請求,查看翻頁參數的變化

PS:若有須要Python學習資料的小夥伴能夠加下方的羣去找免費管理員領取網站

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

能夠免費領取源碼、項目實戰視頻、PDF文件等編碼

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

評論接口

1、接口查找url

隨意點擊某一商品,跳轉詳情頁,點擊商品評價spa

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

繼續下翻,查看評論展現頁數,這裏只顯示100頁3d

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

要查找真正的評論接口,直接刷新頁面,找起來至關麻煩。調試

打開調試,清空請求內容,直接點擊查看第二頁的接口信息,以下圖

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

查看response信息,根據字段comments很容易判斷這就是要找的評論接口,裏面還包含了熱門評論信息。

2、參數查找

先截圖記錄下點擊第二頁的請求參數,以下圖

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

接着繼續點擊第三頁內容,左側搜索框中直接搜索productP,過濾無用的接口信息,查看請求參數,並和前一頁的請求參數作比較。

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

分析到這裏能夠獲得以下結論

  • productId表明當前商品的ID,更換商品ID,即可以採集不一樣商品的評論
  • page表明訪問的頁數,這裏計算頁數從0開始,參數請求的頁數等於實際點擊的頁數減1

3、代碼測試

代碼以下,請求時須要在headers中加入ua和referer,這裏翻頁只設置2

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

執行結果以下:

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

代碼裏只提取了商品ID,評論內容,評論時間,以下圖紅框標註的數據

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

若是要提取其餘字段信息,可在代碼中自行添加。

搜索接口

1、接口查找

搜索以食品爲例,輸入食品,點擊搜索

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

繼續下翻,查看商品返回頁數,這裏也是最大返回100頁信息

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

打開調試,清空請求內容,根據上面寫的查找評論接口的方法,直接點擊第二頁,觀察新增請求。

這裏點擊紅框中s_new接口時,發現響應的信息是html,響應的內容,正好是頁面展現的咱們須要的商品信息。

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

2、參數查找

一樣的,根據下滑,翻頁查看參數的變化

點擊頁面第二頁參數以下

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

頁面上商品展現信息較多,有可能出現會臨時加載一次請求的可能,繼續下翻,剛好能夠看到新增了一次請求,請求參數以下,看着參數增多了。(注意:新增的參數能夠忽略)

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

接着點擊第三頁

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

若是沒法發現規律,可繼續點擊翻頁查看變化規則。

接口參數的構造邏輯有如下幾點:

  • 每一頁有兩次請求,page初始值爲1
  • s的值每次請求增長25,初始值爲1
  • 其餘參數值不變,部分新增參數能夠忽略

3、html頁面解析

直接定位到頁面商品位置,能夠看到全部商品信息都在ul標籤下的li標籤裏面

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

點擊li標籤,能夠看到div/div下的a標籤裏面,包含商品title信息,商品連接信息,連接當中又包含咱們須要提取的product_id信息,右鍵copy、copy xpath直接提取位置信息。

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

4、代碼測試

代碼以下,注意headers中,referer參數須要進行url編碼。

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

執行結果以下:

Python爬蟲實戰講解:某東商品評論信息採集流程分析

 

這裏只提取了title、product_id兩個字段,須要可新增。

本文的文字及圖片來源於網絡,僅供學習、交流使用,不具備任何商業用途,版權歸原做者全部,若有問題請及時聯繫咱們以做處理。

做者:習慣有妳

相關文章
相關標籤/搜索