爬蟲入門系列(一):快速理解 HTTP 協議

4月份給本身挖一個爬蟲系列的坑,主要涉及HTTP 協議、正則表達式、爬蟲框架 Scrapy、消息隊列、數據庫等內容。javascript

爬蟲的基本原理是模擬瀏覽器進行 HTTP 請求,理解 HTTP 協議是寫爬蟲的必備基礎,招聘網站的爬蟲崗位也赫然寫着熟練掌握HTTP協議規範,寫爬蟲還不得不先從HTTP協議開始講起php

HTTP協議是什麼?

你瀏覽的每個網頁都是基於 HTTP 協議呈現的,HTTP 協議是互聯網應用中,客戶端(瀏覽器)與服務器之間進行數據通訊的一種協議。協議中規定了客戶端應該按照什麼格式給服務器發送請求,同時也約定了服務端返回的響應結果應該是什麼格式。html

只要你們都按照協議規定方式發起請求和返回響應結果,任何人均可以基於HTTP協議實現本身的Web客戶端(瀏覽器、爬蟲)和Web服務器(Nginx、Apache等)。java

HTTP 協議自己是很是簡單的。它規定,只能由客戶端主動發起請求,服務器接收請求處理後返回響應結果,同時 HTTP 是一種無狀態的協議,協議自己不記錄客戶端的歷史請求記錄。python

HTTP 協議是如何規定請求格式和響應格式的呢?換言之,客戶端按照什麼格式才能正確發起 HTTP 請求呢?服務端按照什麼格式返回響應結果客戶端才能正確解析?正則表達式

HTTP 請求

HTTP 請求由3部分組成,分別是請求行、請求首部、請求體,首部和請求體是可選的,並非每一個請求都須要的。數據庫

請求行

請求行是每一個請求必不可少的部分,它由3部分組成,分別是請求方法(method)、請求URL(URI)、HTTP協議版本,以空格隔開。瀏覽器

HTTP協議中最經常使用的請求方法有:GET、POST、PUT、DELETE。GET 方法用於從服務器獲取資源,90%的爬蟲都是基於GET請求抓取數據。服務器

請求 URL 是指資源所在服務器的路徑地址,好比上圖的例子表示客戶端想獲取 index.html 這個資源,它的路徑在服務器 foofish.net 的根目錄(/)下面。框架

請求首部

由於請求行所攜帶的信息量很是有限,以致於客戶端還有不少想向服務器要說的事情不得不放在請求首部(Header),請求首部用於給服務器提供一些額外的信息,好比 User-Agent 用來代表客戶端的身份,讓服務器知道你是來自瀏覽器的請求仍是爬蟲,是來自 Chrome 瀏覽器仍是 FireFox。HTTP/1.1 規定了47種首部字段類型。HTTP首部字段的格式很像 Python 中的字典類型,由鍵值對組成,中間用冒號隔開。好比:

User-Agent: Mozilla/5.0複製代碼

由於客戶端發送請求時,發送的數據(報文)是由字符串構成的,爲了區分請求首部的結尾和請求體的開始,用一個空行來表示,遇到空行時,就表示這是首部的結尾,請求體的開始。

請求體

請求體是客戶端提交給服務器的真正內容,好比用戶登陸時的須要用的用戶名和密碼,好比文件上傳的數據,好比註冊用戶信息時提交的表單信息。

如今咱們用 Python 提供的最原始API socket 模塊來模擬向服務器發起一個 HTTP 請求

with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
    # 1. 與服務器創建鏈接
    s.connect(("www.seriot.ch", 80))
    # 2. 構建請求行,請求資源是 index.php
    request_line = b"GET /index.php HTTP/1.1"
    # 3. 構建請求首部,指定主機名
    headers = b"Host: seriot.ch"
    # 4. 用空行標記請求首部的結束位置
    blank_line = b"\r\n"

    # 請求行、首部、空行這3部份內容用換行符分隔,組成一個請求報文字符串
    # 發送給服務器
    message = b"\r\n".join([request_line, headers, blank_line])
    s.send(message)

    # 服務器返回的響應內容稍後進行分析
    response = s.recv(1024)
    print(response)複製代碼

HTTP 響應

服務端接收請求並處理後,返回響應內容給客戶端,一樣地,響應內容也必須遵循固定的格式瀏覽器才能正確解析。HTTP 響應也由3部分組成,分別是:響應行、響應首部、響應體,與 HTTP 的請求格式是相對應的。

響應行

響應行一樣也是3部分組成,由服務端支持的 HTTP 協議版本號、狀態碼、以及對狀態碼的簡短緣由描述組成。

狀態碼是響應行中很重要的一個字段。經過狀態碼,客戶端能夠知道服務器是否正常處理的請求。若是狀態碼是200,說明客戶端的請求處理成功,若是是500,說明服務器處理請求的時候出現了異常。404 表示請求的資源在服務器找不到。除此以外,HTTP 協議還很定義了不少其餘的狀態碼,不過它不是本文的討論範圍。

響應首部

響應首部和請求首部相似,用於對響應內容的補充,在首部裏面能夠告知客戶端響應體的數據類型是什麼?響應內容返回的時間是何時,響應體是否壓縮了,響應體最後一次修改的時間。

響應體

響應體(body)是服務器返回的真正內容,它能夠是一個HTML頁面,或者是一張圖片、一段視頻等等。

咱們繼續沿用前面那個例子來看看服務器返回的響應結果是什麼?由於我只接收了前1024個字節,因此有一部分響應內容是看不到的。

b'HTTP/1.1 200 OK\r\n Date: Tue, 04 Apr 2017 16:22:35 GMT\r\n Server: Apache\r\n Expires: Thu, 19 Nov 1981 08:52:00 GMT\r\n Set-Cookie: PHPSESSID=66bea0a1f7cb572584745f9ce6984b7e; path=/\r\n Transfer-Encoding: chunked\r\n Content-Type: text/html; charset=UTF-8\r\n\r\n118d\r\n <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">\n\n <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">\n <head>\n\t <meta http-equiv="Content-Type" content="text/html;charset=iso-8859-1" /> \n\t <meta http-equiv="content-language" content="en" />\n\t ... </html>複製代碼

從結果來看,它與協議中規範的格式是同樣的,第一行是響應行,狀態碼是200,代表請求成功。第二部分是響應首部信息,由多個首部組成,有服務器返回響應的時間,Cookie信息等等。第三部分就是真正的響應體 HTML 文本。

至此,你應該對 HTTP 協議有一個整體的認識了,爬蟲的行爲本質上就是模擬瀏覽器發送HTTP請求,因此要想在爬蟲領域深耕細做,理解 HTTP 協議是必須的。

固然 HTTP 協議遠不止這麼一點內容,也根本不可能用一篇文章就試圖把它所有講清楚,我在這裏也只是拋磚引玉,想深刻了解HTTP的,可參考「Python之禪」推薦的延伸閱讀。

延伸閱讀

同步發表博客:foofish.net/understand-…
公衆號:Python之禪 (id:VTtalk),分享 Python 等技術乾貨

Python之禪
相關文章
相關標籤/搜索