爬蟲就是請求網站並提取數據的自動化程序json
經過HTTP庫向目標站點發送請求,即發送一個Request。瀏覽器
請求能夠包含額外的headers等信息,等待服務器相應服務器
服務器接到請求後,會返回一個Response,Response的內容就是所要獲取的頁面內容。異步
返回的Response多是HTML、json、二進制數據(圖片視頻)等類型網站
根據獲得的Response類型,選擇對應的方法進行解析url
將咱們想要的數據提取出來進行保存。視頻
最多見的請求方式是GET和POST。除此以外還有其餘的方式,好比HEAD、PUT、DELETE、OPTIONS等圖片
GET和POST最大的區別在於:ip
a. GET將因此請求的參數都放在url裏;POST將因此請求的參數放在表單裏資源
b. GET請求能夠直接經過url訪問;POST請求須要構建表單才能訪問
url全稱統一資源定位符。經過url得到網頁/文檔/圖片等
請求頭是請求時的頭部信息。如User-Agent、Host、Cookies等信息。
網頁在進行反爬蟲時,請求頭是一個很是重要的斷定元素
通常來講,在使用POST請求時,須要傳入相應的請求體來得到Response
2XX:成功訪問
3XX:重定向
4XX:請求錯誤
5XX:服務器錯誤
如內容類型、內容長度、服務器信息等
最主要的部分,包含了請求資源的內容,如網頁HTML、圖片二進制數據等
1)AjAX異步加載分析
2)Selenium/WebDriver 模擬瀏覽器操做
3)Splash模擬JS
4)PyV八、Ghost.py模擬加載JS