爬蟲(十)：AJAX、爬取AJAX數據

時間 2019-12-23

原文原文鏈接

1. AJAX

1.1 什麼是AJAX

AJAX即「Asynchronous JavaScript And XML」（異步JavaScript和XML）可使網頁實現異步更新，就是不從新加載整個網頁的狀況下，對網頁的某部分進行更新（局部刷新）。傳統的網頁（不使用AJAX）若是須要更新內容，必須重載整個網頁頁面。html

AJAX = 異步JavaScript和XML，是一種新的思想，整合以前的多種技術，用於建立快速交互式網頁應用的頁面開發技術。ajax

1.2 同步和異步

同步現象：客戶端發送請求到服務器端，當服務器返回響應以前，客戶端都處於等待卡死狀態。chrome

異步現象：客戶端發送請求到服務器端，不管服務器是否返回響應，客戶端均可以隨意作其餘事情，不會被卡死。json

1.3 AJAX原理分析

1.1使用JavaScript得到瀏覽器內置的AJAX引擎(XMIHttpRequest對象)瀏覽器

1.2經過AJAX引擎肯定請求路徑和請求參數服務器

1.3通知AJAX引擎發送請求異步

AJAX引擎會在不刷新瀏覽器地址欄的狀況下，發送請求函數

2.1服務器得到請求參數工具

2.2服務器處理請求參數(添加、查詢等操做)post

2.3服務器響應數據給瀏覽器

AJAX引擎得到服務器響應的數據，經過執行JavaScript的回調函數將數據傳遞給瀏覽器頁面。

3.1經過設置給AJAX引擎的回調函數得到服務器響應的數據

3.2使用JavaScript在指定的位置，顯示響應數據，從而局部修改頁面的數據，達到局部刷新目。

2. 爬取AJAX數據

2.1 查看AJAX數據

目前不少網站都使用ajax技術動態加載數據，和常規的網站不同，數據時動態加載的，若是咱們使用常規的方法爬取網頁，獲得的只是一堆html代碼，沒有任何的數據。

import requests
from urllib.parse import urlencode

url = 'http://www.baidu.com/'
headers = {
    'USER-AGENT':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

response = requests.get(url,headers=headers)
print(response.text)