電商平臺的小爬蟲,經過網站的搜索接口拿到商品ID,根據商品ID採集對應的評論。html
一、目標網站:網絡
aHR0cHM6Ly9zZWFyY2guamQuY29tL1NlYXJjaD9rZXl3b3JkPSVFOSVBMyU5RiVFNSU5MyU4MQ==
搜索的關鍵詞可自行更改,文章這裏以食品爲例。學習
二、主要用到的技能以下:測試
PS:若有須要Python學習資料的小夥伴能夠加下方的羣去找免費管理員領取網站
能夠免費領取源碼、項目實戰視頻、PDF文件等編碼
1、接口查找url
隨意點擊某一商品,跳轉詳情頁,點擊商品評價spa
繼續下翻,查看評論展現頁數,這裏只顯示100頁3d
要查找真正的評論接口,直接刷新頁面,找起來至關麻煩。調試
打開調試,清空請求內容,直接點擊查看第二頁的接口信息,以下圖
查看response信息,根據字段comments很容易判斷這就是要找的評論接口,裏面還包含了熱門評論信息。
2、參數查找
先截圖記錄下點擊第二頁的請求參數,以下圖
接着繼續點擊第三頁內容,左側搜索框中直接搜索productP,過濾無用的接口信息,查看請求參數,並和前一頁的請求參數作比較。
分析到這裏能夠獲得以下結論
3、代碼測試
代碼以下,請求時須要在headers中加入ua和referer,這裏翻頁只設置2
執行結果以下:
代碼裏只提取了商品ID,評論內容,評論時間,以下圖紅框標註的數據
若是要提取其餘字段信息,可在代碼中自行添加。
1、接口查找
搜索以食品爲例,輸入食品,點擊搜索
繼續下翻,查看商品返回頁數,這裏也是最大返回100頁信息
打開調試,清空請求內容,根據上面寫的查找評論接口的方法,直接點擊第二頁,觀察新增請求。
這裏點擊紅框中s_new接口時,發現響應的信息是html,響應的內容,正好是頁面展現的咱們須要的商品信息。
2、參數查找
一樣的,根據下滑,翻頁查看參數的變化
點擊頁面第二頁參數以下
頁面上商品展現信息較多,有可能出現會臨時加載一次請求的可能,繼續下翻,剛好能夠看到新增了一次請求,請求參數以下,看着參數增多了。(注意:新增的參數能夠忽略)
接着點擊第三頁
若是沒法發現規律,可繼續點擊翻頁查看變化規則。
接口參數的構造邏輯有如下幾點:
3、html頁面解析
直接定位到頁面商品位置,能夠看到全部商品信息都在ul標籤下的li標籤裏面
點擊li標籤,能夠看到div/div下的a標籤裏面,包含商品title信息,商品連接信息,連接當中又包含咱們須要提取的product_id信息,右鍵copy、copy xpath直接提取位置信息。
4、代碼測試
代碼以下,注意headers中,referer參數須要進行url編碼。
執行結果以下:
這裏只提取了title、product_id兩個字段,須要可新增。
本文的文字及圖片來源於網絡,僅供學習、交流使用,不具備任何商業用途,版權歸原做者全部,若有問題請及時聯繫咱們以做處理。
做者:習慣有妳