【轉】HTTP協議詳解（真的很經典）

時間 2019-11-12

原文原文鏈接

引言
html

HTTP是一個屬於應用層的面向對象的協議，因爲其簡捷、快速的方式，適用於分佈式超媒體信息系統。它於1990年提出，通過幾年的使用與發展，獲得不斷地完善和擴展。目前在WWW中使用的是HTTP/1.0的第六版，HTTP/1.1的規範化工做正在進行之中，並且HTTP-NG(Next Generation of HTTP)的建議已經提出。
HTTP協議的主要特色可歸納以下：
java

簡單：客戶向服務器請求服務時，只需傳送請求方法和路徑。請求方法經常使用的有GET、HEAD、POST。每種方法規定了客戶與服務器聯繫的不一樣類型。因爲HTTP協議簡單，使得HTTP服務器的程序規模小，於是通訊速度很快。
靈活：HTTP容許傳輸任意類型的數據對象。正在傳輸的類型由Content-Type加以標記。
請求-響應模式：客戶端每次向服務器發起一個請求時都創建一個連j接，服務器處理完客戶的請求即斷開鏈接。

無狀態：HTTP協議是無狀態協議。無狀態是指協議對於事務處理沒有記憶能力。缺乏狀態意味着若是後續處理須要前面的信息，則它必須重傳，這樣可能致使每次鏈接傳送的數據量增大。

推薦使用Fiddler來學習http協議和分析每次http請求/響應的格式。

1、HTTP協議詳解之URL篇web

http（超文本傳輸協議）是一個基於請求與響應模式的、無狀態的、應用層的協議，常基於TCP的鏈接方式，HTTP1.1版本中給出一種持續鏈接的機制，絕大多數的Web開發，都是構建在HTTP協議之上的Web應用。shell

HTTP URL (URL是一種特殊類型的URI，包含了用於查找某個資源的足夠的信息)的格式以下：瀏覽器

http://host[":"port][path]

其中，http表示要經過HTTP協議來定位網絡資源；host表示合法的Internet主機域名或者IP地址；port指定一個端口號，若空則使用缺省的80端口；path指定請求資源的URI；若是URL中沒有給出path，那麼當它做爲請求URI時，必須以「/」的形式給出，但一般瀏覽器會幫咱們完成這個工做。好比在瀏覽器地址欄輸入： www.guet.edu.cn，瀏覽器自動換成 http://www.guet.edu.cn/

2、HTTP協議詳解之請求篇緩存

http請求由三部分組成，分別是：請求行、消息報頭、請求正文服務器

1) 請求行以一個方法符號開頭，以空格分開，後面跟着請求的URI和協議的版本，格式以下：cookie

Method Request-URI HTTP-Version CRLF

其中, EMethod表示請求方法，通常爲GET, POST, PUT, DELET；Request-URI是一個統一資源標識符，例如/index.jsp；HTTP-Version表示請求的HTTP協議版本, 好比HTTP/1.1；CRLF表示回車和換行符（除了做爲結尾的CRLF外，不容許出現單獨的CR或LF字符）。

請求方法除了上述提到的GET, POST, PUT, DELETE外，還有TRACE, CONNECT,OPTIONS，其各個方法的解釋以下：
網絡

GET          請求獲取Request-URI所標識的資源
POST         在Request-URI所標識的資源後附加新的數據
HEAD         請求獲取由Request-URI所標識的資源的響應消息報頭
PUT          請求服務器存儲一個資源，並用Request-URI做爲其標識
DELETE       請求服務器刪除Request-URI所標識的資源
TRACE        請求服務器回送收到的請求信息，主要用於測試或診斷
CONNECT      保留未來使用
OPTIONS      請求查詢服務器的性能，或者查詢與資源相關的選項和需求

應用舉例：

在瀏覽器的地址欄中輸入網址的方式訪問網頁時，瀏覽器採用GET方法向服務器獲取資源
POST方法要求被請求服務器接受附在請求後面的數據，經常使用於提交表單。一個典型的POST請求格式以下：

POST /reg.jsp HTTP/ (CRLF)                 //這行是請求行
Accept:image/gif,image/x-xbit,... (CRLF)
...
HOST:www.guet.edu.cn (CRLF)
Content-Length:22 (CRLF)
Connection:Keep-Alive (CRLF)
Cache-Control:no-cache (CRLF)
(CRLF)                                     //該CRLF表示消息報頭已經結束，在此以前爲消息報頭
user=jeffrey&pwd=1234                      //此行及如下爲提交的數據

HEAD方法與GET方法的請求/響應格式幾乎是同樣的，所以常利用HEAD請求方法測試資源的有效性，好比是否能夠訪問，以及最近是否更新過等。
併發

3、HTTP協議詳解之響應篇

通常狀況下，服務器接收並處理客戶端發過來的請求後會返回一個HTTP的響應消息。

HTTP的響應消息也是由三個部分組成，分別是：狀態行、消息報頭、響應正文
1) 狀態行格式以下：

HTTP-Version Status-Code Reason-Phrase (CRLF)

其中，HTTP-Version表示服務器HTTP協議的版本, 例如HTTP/1.1；Status-Code表示服務器發回的響應狀態代碼, 例如200；Reason-Phrase表示狀態代碼的文本描述，例如OK。一個典型的響應消息狀態行：

HTTP/1.1 200 OK

狀態代碼有三位數字組成，第一個數字定義了響應的類別，共分五種類別:
1xx：指示信息--表示請求已接收，繼續處理
2xx：成功--表示請求已被成功接收、理解、接受
3xx：重定向--要完成請求必須進行更進一步的操做
4xx：客戶端錯誤--請求有語法錯誤或請求沒法實現

5xx：服務器端錯誤--服務器未能實現合法的請求

常見狀態代碼、狀態描述、說明：

200 OK //客戶端請求成功
400 Bad Request //客戶端請求有語法錯誤，不能被服務器所理解
401 Unauthorized //請求未經受權，這個狀態代碼必須和WWW-Authenticate報頭域一塊兒使用
403 Forbidden //服務器收到請求，可是拒絕提供服務
404 Not Found //請求資源不存在，eg：輸入了錯誤的URL
500 Internal Server Error //服務器發生不可預期的錯誤
503 Server Unavailable //服務器當前不能處理客戶端的請求，一段時間後可能恢復正常

更多http響應碼的說明，請參考 http://zh.wikipedia.org/zh/HTTP%E7%8A%B6%E6%80%81%E7%A0%81

4、HTTP協議詳解之消息報頭篇

無論是請求消息仍是響應消息，都由開始行（對於請求消息，開始行就是請求行，對於響應消息，開始行就是狀態行），消息報頭，空行（只有CRLF的行），消息正文組成。HTTP消息報頭包括普通報頭、請求報頭、響應報頭、實體報頭。每個報頭域都是由名字+":"+值 組成，消息報頭域的名字是大小寫無關的, 域值前能夠有任意個空格（但一般會在前面添加一個空格）,能夠容許多個相同的消息報頭。

1）普通報頭
普通報頭中包含請求消息和響應消息都支持的頭域，有Cache-Control、Connection、Date、Pragma、Transfer-Encoding、Upgrade、Via。下面對此做簡單的介紹。

Cache-Control: 用於指定緩存指令。緩存指令是單向的（響應中出現的緩存指令在請求中未必會出現），且是獨立的（一個消息的緩存指令不會影響另外一個消息處理的緩存機制），HTTP1.0使用的相似的報頭域爲Pragma。請求時， Cache-Control的取值包括：no-cache（用於指示請求或響應消息不能緩存）、no-store、max-age、max-stale、min-fresh、only-if-cached; 響應時， Cache-Control的取值包括：public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age、s-maxage. 而各類Cache-Control的取值含義以下：

public　　　　　 指示響應可被任何緩存區緩存。
Private        指示對於單個用戶的整個或部分響應消息，不能被共享緩存處理。這容許服務器僅僅描述當用戶的部分響應消息，此響應消息對於其餘用戶的請求無效。
no-cache       指示請求或響應消息不能緩存
no-store       用於防止重要的信息被無心的發佈。在請求消息中發送將使得請求和響應消息都不使用緩存。
max-age        指示客戶機能夠接收生存期不大於指定時間（以秒爲單位）的響應。
min-fresh      指示客戶機能夠接收響應時間小於當前時間加上指定時間的響應。
max-stale      指示客戶機能夠接收超出超時期間的響應消息。若是指定max-stale消息的值，那麼客戶機能夠接收超出超時期指定值以內的響應消息。

舉例：爲了指示IE瀏覽器（客戶端）不要緩存頁面，服務器端的JSP頁面能夠編寫以下：

response.setHeader("Cache-Control","no-cache");

這句代碼將在發送的響應消息中設置普通報頭域：Cache-Control:no-cache

Date：表示消息產生的日期和時間, 例如 Date:Mon,31Dec200104:25:57GMT
Connection: 容許發送指定鏈接的選項。例如指定鏈接是連續，或者指定「close」選項，通知服務器，在響應完成後，關閉鏈接
Pragma：用來包含實現特定的指令，最經常使用的是Pragma:no-cache。在HTTP/1.1協議中，它的含義和Cache-Control:no-cache相同。

2）請求報頭
請求報頭容許客戶端向服務器端傳遞請求的附加信息以及客戶端自身的信息。經常使用的請求報頭有：

Accept：用於指定客戶端接受哪些類型的響應信息。好比Accept：image/gif，代表客戶端但願接受GIF圖象格式的資源；而Accept：text/html，代表客戶端但願接受html文本; Accept: image/gif,text/html，代表客戶但願接受gif圖像或html文本
Accept-Charset：用於指定客戶端接受的字符集。好比Accept-Charset:ISO-8859-1,GB2312，表示客戶端但願返回的文本字符集是ISO-8859-1或GB2312。若是在請求消息中沒有設置這個域，缺省是任何字符集均可以接受。
Accept-Encoding: 用於指定可接受的內容編碼。好比Accept-Encoding:gzip.deflate.若是請求消息中沒有設置這個域，服務器假定客戶端對各類內容編碼均可以接受。
Accept-Language:用於指定一種天然語言。好比Accept-Language:zh-CN, 表示接受中國漢語.若是請求消息中沒有設置這個報頭域，服務器假定客戶端對各類語言均可以接受。
Authorization: 用於證實客戶端有權查看某個資源。當瀏覽器訪問一個頁面時，若是收到服務器的響應代碼爲401（未受權），能夠發送一個包含Authorization的請求報頭域的請求，要求服務器對其進行驗證。
Host：主要用於指定被請求資源的Internet主機和端口號，它一般從HTTP的URL中提取出來。好比咱們瀏覽器中輸入：http://www.guet.edu.cn/index.html. 瀏覽器會把Host請求報頭域加上，該域值爲www.guet.edu.cn。此處使用缺省端口號80，若指定了端口號，則變成：Host：www.guet.edu.cn:指定端口號
User-Agent：咱們上網登錄論壇的時候，每每會看到一些歡迎信息，可能會列出了你當前的操做系統名稱和版本，你當前所使用的瀏覽器名稱和版本。這每每讓不少人感到很神奇。實際上，服務器應用程序就是從User-Agent這個請求報頭域中獲取這些信息。User-Agent請求報頭域容許客戶端將它的操做系統、瀏覽器和其它屬性告訴瀏覽器。不過，這個報頭域不是必需的，若是咱們本身編寫一個瀏覽器，不使用User-Agent請求報頭域，那麼服務器端就沒法得知咱們的信息了。但一般瀏覽器都會帶上這個請求包頭域

一個典型的請求包頭以下：

GET /form.html HTTP/1.1 (CRLF)
Accept:image/gif,image/x-xbitmap,image/jpeg,application/x-shockwave-flash,application/vnd.ms-excel,application/vnd.ms-powerpoint,application/msword,*/* (CRLF)
Accept-Language:zh-cn (CRLF)
Accept-Encoding:gzip,deflate (CRLF)
If-Modified-Since:Wed,05 Jan 2007 11:21:25 GMT (CRLF)
If-None-Match:W/"80b1a4c018f3c41:8317" (CRLF)
User-Agent:Mozilla/4.0(compatible;MSIE6.0;Windows NT 5.0) (CRLF)
Host:www.guet.edu.cn (CRLF)
Connection:Keep-Alive (CRLF)
(CRLF)

3) 響應報頭
響應報頭容許服務器傳遞的附加響應信息，以及關於服務器的狀態信息以及對Request-URI所標識的資源進行下一步訪問的信息。經常使用的響應報頭有:

Location: 用於提示客戶端重定向到一個新的位置。Location響應報頭域經常使用在更換域名的時候。

Server：包含了服務器用來處理請求的軟件信息。好比Server: Play! Framework; 1.2.3; prod，表示處理本次請求的應用程序是一個用Play ! Framework 1.2.3搭建的應用服務程序，該程序處於生產模式.
Connection:
Proxy-Connection:
Set-Cookie: cookie信息

4) 實體報頭
請求和響應消息均可以傳送一個實體。一個實體由實體報頭域和實體正文組成，但並非說實體報頭域和實體正文要在一塊兒發送，能夠只發送實體報頭域。實體報頭定義了關於實體正文（例若有無實體正文）和請求所標識的資源的元信息。經常使用的實體報頭有：

Content-Encoding：用於記錄文檔的壓縮方法。好比 Content-Encoding：gzip
Content-Language：描述了資源所用的天然語言。ru沒有設置該域，則認爲實體內容將提供給全部的語言閱讀
Content-Length: 用於指明實體正文的長度，單位字節, 十進制數表示
Content-Type: 指明發送給接收者的實體正文的媒體類型，好比Content-Type:text/html;charset=ISO-8859-1，表示正文是一個html文檔，採用ISO-8859-1編碼
Last-Modified: 用於指示資源的最後修改日期和時間。
Expires: 給出響應過時的日期和時間。爲了讓代理服務器或瀏覽器在一段時間之後更新緩存中(再次訪問曾訪問過的頁面時，直接從緩存中加載，縮短響應時間和下降服務器負載)的頁面，咱們可使用Expires指定頁面過時的時間。好比Expires：Thu，15 Sep 2006 16:23:12 GMT

HTTP1.1的客戶端和緩存必須將其餘非法的日期格式（包括0）看做已通過期。例如，爲了讓瀏覽器不要緩存頁面，咱們能夠將Expires設爲0，jsp中程序以下：response.setDateHeader("Expires","0");

5、利用telnet觀察http協議的通信過程

實驗目的及原理：
利用MS的telnet工具，經過手動輸入http請求信息的方式，向服務器發出請求，服務器接收、解釋和接受請求後，會返回一個響應，該響應會在telnet窗口上顯示出來，從而從感性上加深對http協議的通信過程的認識。

實驗步驟：

一、打開telnet
1.1 打開telnet
運行-->cmd-->telnet

1.2 打開telnet回顯功能
set localecho

二、鏈接服務器併發送請求
2.1 open www.guet.edu.cn 80 //注意端口號不能省略

    HEAD /index.asp HTTP/1.0
    Host:www.guet.edu.cn

   /*咱們能夠變換請求方法,請求桂林電子主頁內容,輸入消息以下*/
    open www.guet.edu.cn 80

    GET /index.asp HTTP/1.0 //請求資源的內容
    Host:www.guet.edu.cn

2.2 open www.sina.com.cn 80 //在命令提示符號下直接輸入telnet www.sina.com.cn 80
HEAD /index.asp HTTP/1.0
Host:www.sina.com.cn

3 實驗結果：

3.1 請求信息2.1獲得的響應是:

HTTP/1.1 200 OK                                              //請求成功
Server: Microsoft-IIS/5.0                                    //web服務器
Date: Thu,08 Mar 200707:17:51 GMT
Connection: Keep-Alive
Content-Length: 23330
Content-Type: text/html
Expries: Thu,08 Mar 2007 07:16:51 GMT
Set-Cookie: ASPSESSIONIDQAQBQQQB=BEJCDGKADEDJKLKKAJEOIMMH; path=/
Cache-control: private

//資源內容省略

3.2 請求信息2.2獲得的響應是:

HTTP/1.0 404 Not Found //請求失敗
Date: Thu, 08 Mar 2007 07:50:50 GMT
Server: Apache/2.0.54 <Unix>
Last-Modified: Thu, 30 Nov 2006 11:35:41 GMT
ETag: "6277a-415-e7c76980"
Accept-Ranges: bytes
X-Powered-By: mod_xlayout_jh/0.0.1vhs.markII.remix
Vary: Accept-Encoding
Content-Type: text/html
X-Cache: MISS from zjm152-78.sina.com.cn
Via: 1.0 zjm152-78.sina.com.cn:80<squid/2.6.STABLES-20061207>
X-Cache: MISS from th-143.sina.com.cn
Connection: close

失去了跟主機的鏈接

按任意鍵繼續...

4 .注意事項：一、出現輸入錯誤，則請求不會成功。
          二、報頭域不分大小寫。
          三、更深一步瞭解HTTP協議，能夠查看RFC2616，在http://www.letf.org/rfc上找到該文件。
          四、開發後臺程序必須掌握http協議

6、HTTP協議相關技術補充

一、基礎：高層協議有：文件傳輸協議FTP、電子郵件傳輸協議SMTP、域名系統服務DNS、網絡新聞傳輸協議NNTP和HTTP協議等中介由三種：代理(Proxy)、網關(Gateway)和通道(Tunnel)，一個代理根據URI的絕對格式來接受請求，重寫所有或部分消息，經過 URI的標識把已格式化過的請求發送到服務器。網關是一個接收代理，做爲一些其它服務器的上層，而且若是必須的話，能夠把請求翻譯給下層的服務器協議。一個通道做爲不改變消息的兩個鏈接之間的中繼點。當通信須要經過一箇中介(例如：防火牆等)或者是中介不能識別消息的內容時，通道常常被使用。代理(Proxy)：一箇中間程序，它能夠充當一個服務器，也能夠充當一個客戶機，爲其它客戶機創建請求。請求是經過可能的翻譯在內部或通過傳遞到其它的服務器中。一個代理在發送請求信息以前，必須解釋而且若是可能重寫它。代理常常做爲經過防火牆的客戶機端的門戶，代理還能夠做爲一個幫助應用來經過協議處理沒有被用戶代理完成的請求。網關(Gateway)：一個做爲其它服務器中間媒介的服務器。與代理不一樣的是，網關接受請求就好象對被請求的資源來講它就是源服務器；發出請求的客戶機並無意識到它在同網關打交道。網關常常做爲經過防火牆的服務器端的門戶，網關還能夠做爲一個協議翻譯器以便存取那些存儲在非HTTP系統中的資源。通道(Tunnel)：是做爲兩個鏈接中繼的中介程序。一旦激活，通道便被認爲不屬於HTTP通信，儘管通道多是被一個HTTP請求初始化的。當被中繼的鏈接兩端關閉時，通道便消失。當一個門戶(Portal)必須存在或中介(Intermediary)不能解釋中繼的通信時通道被常用。二、協議分析的優點—HTTP分析器檢測網絡攻擊以模塊化的方式對高層協議進行分析處理，將是將來入侵檢測的方向。 HTTP及其代理的經常使用端口80、3128和8080在network部分用port標籤進行了規定三、HTTP協議Content Lenth限制漏洞致使拒絕服務攻擊使用POST方法時，能夠設置ContentLenth來定義須要傳送的數據長度，例如ContentLenth:999999999，在傳送完成前，內存不會釋放，攻擊者能夠利用這個缺陷，連續向WEB服務器發送垃圾數據直至WEB服務器內存耗盡。這種攻擊方法基本不會留下痕跡。 http://www.cnpaf.net/Class/HTTP/0532918532667330.html 四、利用HTTP協議的特性進行拒絕服務攻擊的一些構思服務器端忙於處理攻擊者僞造的TCP鏈接請求而無暇理睬客戶的正常請求（畢竟客戶端的正常請求比率很是之小），此時從正常客戶的角度看來，服務器失去響應，這種狀況咱們稱做：服務器端受到了SYNFlood攻擊（SYN洪水攻擊）。而Smurf、TearDrop等是利用ICMP報文來Flood和IP碎片攻擊的。本文用「正常鏈接」的方法來產生拒絕服務攻擊。 19端口在早期已經有人用來作Chargen攻擊了，即Chargen_Denial_of_Service，可是！他們用的方法是在兩臺Chargen 服務器之間產生UDP鏈接，讓服務器處理過多信息而DOWN掉，那麼，幹掉一臺WEB服務器的條件就必須有2個：1.有Chargen服務2.有HTTP 服務方法：攻擊者僞造源IP給N臺Chargen發送鏈接請求（Connect），Chargen接收到鏈接後就會返回每秒72字節的字符流（實際上根據網絡實際狀況，這個速度更快）給服務器。五、Http指紋識別技術 Http指紋識別的原理大體上也是相同的：記錄不一樣服務器對Http協議執行中的微小差異進行識別.Http指紋識別比TCP/IP堆棧指紋識別複雜許多,理由是定製Http服務器的配置文件、增長插件或組件使得更改Http的響應信息變的很容易,這樣使得識別變的困難；然而定製TCP/IP堆棧的行爲須要對核心層進行修改,因此就容易識別. 要讓服務器返回不一樣的Banner信息的設置是很簡單的,象Apache這樣的開放源代碼的Http服務器,用戶能夠在源代碼裏修改Banner信息,然後重起Http服務就生效了；對於沒有公開源代碼的Http服務器好比微軟的IIS或者是Netscape,能夠在存放Banner信息的Dll文件中修改,相關的文章有討論的,這裏再也不贅述,固然這樣的修改的效果仍是不錯的.另一種模糊Banner信息的方法是使用插件。經常使用測試請求： 1：HEAD/Http/1.0發送基本的Http請求 2：DELETE/Http/1.0發送那些不被容許的請求,好比Delete請求 3：GET/Http/3.0發送一個非法版本的Http協議請求 4：GET/JUNK/1.0發送一個不正確規格的Http協議請求 Http指紋識別工具Httprint,它經過運用統計學原理,組合模糊的邏輯學技術,能頗有效的肯定Http服務器的類型.它能夠被用來收集和分析不一樣Http服務器產生的簽名。六、其餘：爲了提升用戶使用瀏覽器時的性能，現代瀏覽器還支持併發的訪問方式，瀏覽一個網頁時同時創建多個鏈接，以迅速得到一個網頁上的多個圖標，這樣能更快速完成整個網頁的傳輸。 HTTP1.1中提供了這種持續鏈接的方式，而下一代HTTP協議：HTTP-NG更增長了有關會話控制、豐富的內容協商等方式的支持，來提供更高效率的鏈接。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。