爬蟲知識儲備篇---分析http請求

(1)、爲什麼須要進行HTTP請求分析

答:方便咱們編寫的爬蟲精準定位爬取目標javascript

(2)、知識儲備

一、什麼是抓包?css

抓包:抓取客戶端與服務器之間進行通訊時產生的數據包java

二、瞭解抓包工具:chrome下的開發者模式,使用F12便可打開linux

 

功能結構分析:(參考文檔:http://www.css88.com/doc/chrome-devtools/)web

Elements(元素面板):用於查看網頁源代碼HTML中的任一元素,手動修改任一元素的屬性和樣式且能在瀏覽器中獲得實時反饋chrome

Console(控制檯面板):在開發過程當中,記錄診斷信息,或用來做爲shell在頁面中與javascript進行交互shell

Source(源代碼面板):斷點調試javascript,或經過Workspaces(工做區)鏈接本地文件來使用開發者工具的實時編輯器windows

Network(網路面板):從發起頁面請求Request後分析HTTP請求後獲得的各個請求資源信息(包括狀態、資源類型、大小、所用時間等)瀏覽器

Performance(性能面板):使用時間軸面板經過記錄和查看網站生命週期內發生的各類事件來提升頁面的運行性能緩存

Memory(內存面板):分析web應用或頁面的執行時間及內存使用狀況

Application(應用面板):記錄網站加載的全部資源信息,包括存儲數據(local storage session storage -lndexedDB web SQL Cookies)緩存數據、字體、圖片、腳本、樣式表等

Security(安全面板):用來調試混合內容問題、證書問題等

Audits(審覈面板):對當前網頁進行網絡利用狀況、網頁性能方面的診斷,並給出優化建議,例如列出全部沒有用到的CSS文件等

(3)、主要面板使用詳解

Elements(元素面板)--至關於在源碼與渲染好的頁面間搭建的橋樑,直觀的看到你要抓取的數據(當咱們在頁面中右擊找二手房後並選取檢查後,會在element中定位相應的源碼)


 

Console(控制檯面板)--注入js代碼用於操做瀏覽器幹活

運行後咱們成功打開了淘寶頁面


 

Network(網路面板)

一、Controls(控件):用來控制Network面板的外觀和功能

二、Filters(過濾器):用來篩選請求列表中顯示哪些資源(注:windows/linux中按住ctrl,可選多個過濾器、Mac中則按住Cmd)

三、Overview(概覽):用來記錄每一個連接什麼時候開始加載、什麼時候加載完畢

四、Request Table(請求列表):展現了每個連接的請求(默認按時間排序)

五、Summary(概要):展現請求總數、傳輸的數據量和加載時間

備註:使用ctrl +shift +n 進入無痕模式進行抓包

一、controls:

說明:禁用緩存:現代瀏覽器的智能化決定了當你刷新頁面時,其實只刷新了一部份內容(從服務器返回)而另外一部分從本機的緩存中調用,而勾選這個選項代表刷新所有內容(即全從服務器返回)--能更加真實的瞭解服務器返回的內容

二、filter:

使用過濾器:

關鍵字查詢:

一、domain(域)

顯示指定域的資源。例子:*.com顯示.com結尾的域名中的資源

二、has-response-header(響應頭信息)

顯示指定http響應頭的信息資源。

三、ls

使用is:running過濾出WebSocket資源

四、langer-than(大於)

顯示大於指定大小的資源(已bytes爲單位),設置值1000等效於設置值1k。

五、method(方法)

顯示經過指定http方法檢索的資源。

六、mime-type(mine類型)

顯示指定mine類型的資源。

七、mixed-content(混合內容)

顯示全部混合內容的資源(mixed-content:all)\ 顯示當前顯示的內容(mixed-content:displayed)

八、scheme(協議)

顯示經過不受保護的http(scheme:http)或受保護的https(scheme:https)檢索的資源

這裏補充一個小知識點:https是在http基礎上有SSL,其中包含CA證書

九、set-cookie-domain(cookie域)

顯示具備Set-Cookie頭且domain屬性與指定值匹配的資源。

十、set-cookie-name(cookie名)

顯示具備Set-Cookie頭且名稱與指定值匹配的資源。

十一、set-cookie-value(cookie值)

顯示具備Set-Cookie頭且值與指定資源匹配的資源。

十二、status-code(狀態嗎)

顯示http狀態碼與指定代碼匹配的資源

這裏補充一個小知識點:2---表示成功  3-- 表示重定向 4--服務器出錯 5-- 客戶端出錯

實驗:

複製、保存、清除網絡信息:

查看資源發起者和依賴者的關係(類比爲:母子)

相關文章
相關標籤/搜索