3款你必須知道的爬蟲工具

做者:xiaoyu
微信公衆號:Python數據科學
知乎:https://zhuanlan.zhihu.com/py...ajax


本篇博主將和你們分享幾個很是有用的爬蟲小工具,這些小工具在實際的爬蟲的開發中會大大減小你的時間成本,並同時提升你的工做效率,真的是很是實用的工具。json

這些工具實際上是Google上的插件,一些擴展程序,而且經博主親測,無任何問題。最後的最後,博主將提供小工具的獲取方式。segmentfault

clipboard.png

好了,話很少說,咱們來介紹一下。瀏覽器

JSON-handle

1. 解讀:

咱們前面提到過,當客戶端向服務器端提出<ajax>異步請求(好比 <xhr>)時,會在響應裏返回 <json> 格式的數據。服務器

在開發者工具中,咱們會看到 <json> 格式數據的可視化效果不好,就是一段冗長的字符串,難以直接看出關鍵信息。微信

那麼爲了直接有效的找到關鍵信息,<JSON-handle>工具會將繁雜的 <json> 格式數據變成簡單清晰的樹狀圖,極大的提升可視化效果。iphone

2. 使用說明:

方法很簡單,若是你已經安裝好了小工具,點開圖標彈出框框,把<json>數據複製進去便可。異步

clipboard.png

固然,你也能夠把從任意地方拿來的<json>數據放進去,不侷限於瀏覽器異步響應。工具

3. 實例:

就以<天貓網站>爲例,隨便找出一個異步的請求,response是下面這樣的。學習

jsonp_46336857({"201509290":{"data":[{"_pos_":1,"entityType":"13","acm":"201509290.1003.1.1286473","title":"【搶券減400】Apple/蘋果iPhone X 全網通4G智能手機蘋果10 蘋果X","typ.......

把代碼放進框框裏,點擊OK,就變成下面這樣了數(據比較長,只截取一部分)。

圖片描述

User-Agent Switcher

1. 解讀:

上篇解讀爬蟲中HTTP的祕密(基礎篇)咱們介紹了請求頭,而這個工具就是針對請求頭中的User-Agent字段的。它的做用是能夠隨意更換瀏覽器的User-Agent。

好比,你用Chrome瀏覽器瀏覽網頁,瀏覽器默認身份Chrome,可是你能夠經過這個工具更換成其它任何身份。

這個最大的好處就是能夠直接更換成手機身份瀏覽網頁,而沒必要用開發者工具來回切換。

2. 使用說明:

使用Chrome瀏覽器安裝插件,點開圖標,選擇你須要的身份便可。

clipboard.png

3. 實例:

(默認Chrome瀏覽器是這樣的)

clipboard.png

clipboard.png

(變換爲IOS-iphone6)

變換爲IOS-iphone6

clipboard.png

Xpath-Helper

1. 解讀:

針對Xpath解析方法,Xpath-Helper可提供當前網頁指定Xpath語句的查詢結果。

2. 使用說明:

點開圖標,出現黑色框框。

  • QUERY:Xpath語句
  • RESULTS:查詢結果

clipboard.png

3. 實例:

1.假設目標爲二維碼下的<百度>二字

clipboard.png

2.開發者工具找到源碼相應位置,右鍵copy xpath

clipboard.png

3.複製到QUERY裏面,結果自動出來

clipboard.png

Xpath-Helper小工具安裝後須要重啓Chrome方可以使用,請你們注意一下這個坑。

安裝方法

  1. 下載Chrome瀏覽器
  2. 下載小工具插件
  3. 打開Chrome更多工具—>擴展程序
  4. 拖動小工具插件程序<.crx>到擴展程序裏
  5. 安裝

安裝完成後,右上角會有三個小圖標:

clipboard.png

獲取方式

獲取方式很簡單,關注公衆號<Python數據科學>,發送<爬蟲小工具>,便可獲得下載連接和密碼。
但願對你們有幫助,更多精彩敬請期待!


若是想學習Python爬蟲和數據分析,能夠關注微信公衆號Python數據科學,發現數據之美。

clipboard.png

相關文章
相關標籤/搜索