HTTP請求
1.首先須要瞭解一下http請求,當用戶在地址欄中輸入網址,發送網絡請求的過程是什麼?html
能夠參考我以前學習的時候轉載的一篇文章一次完整的HTTP事務過程–超詳細web
2.還須要瞭解一下http的請求方式瀏覽器
有興趣的同窗能夠去查一下http的八種請求方法,這裏呢主要說下get請求和post請求,這兩種在之後學習中會用到的比較多。安全
get請求:GET方法用於使用給定的URI從給定服務器中檢索信息,即從指定資源中請求數據。咱們輸入網址訪問網站通常就是get請求。[作運維的小年輕]使用GET方法的請求應該只是檢索數據,而且不該對數據產生其餘影響。
優勢:比較便捷
缺點:因爲是明文傳輸,因此安全性比較低,另外參數長度有限制。服務器
post請求:POST請求一般是使用來提交HTML的表單,表單中的數據傳輸到服務器,由服務器對這些數據處理。咱們日常執行登陸操做的那一下基本上都是post請求。
關於get請求和post請求區別優缺點這裏推薦一篇博文:http GET 和 POST 請求的優缺點、區別以及誤區網絡
下面說一下Headers中的Request Headers(請求頭信息),併發
Accept:指定客戶端可以接收的內容類型,圖中text/html表示要請求返回文本格式的數據運維
Accept-Encoding:指定瀏覽器能夠支持的web服務器返回內容壓縮編碼類型,圖中gzip表示支持gzip格式的壓縮文件post
Accept-Language:瀏覽器可接受的語言 圖中 zh-CN表示接受中文學習
Connection:表示是否須要持久鏈接。(HTTP 1.1默認進行持久鏈接)圖中keep-alive意爲保持長連接
Cookie:是服務器發送到瀏覽器並保存在本地的一小塊數據,存儲在header中,它會在瀏覽器下次向同一服務器再發起請求時被攜帶併發送到服務器上,一般,它用於告知服務端兩個請求是否來自同一瀏覽器,如保持用戶的登陸狀態。
Host:指定請求的服務器的域名和端口號,圖中是www.baidu.com也就是我在地址欄中請求的網址
User-Agent:包含的是發出請求的用戶信息,客戶機的軟件環境瀏覽器類型等
Response Header 和Request Headers對應,以下圖
瞭解完這些呢,就來看下爬蟲吧
關於爬蟲
爬蟲通俗來講,就是使用代碼模擬用戶,批量發送網絡請求,批量的獲取數據
爬蟲的的分類
1.通用爬蟲:搜索引擎的爬蟲
優點:開放性很好,速度比較快
劣勢:目標不明確,舉個例子哈,例如我在百度搜索圖片,搜索結果以下圖,我想要的是圖片,可是看下圖紅色方框所圈的內容並非咱們所要找的圖片資源,這就是我所說[作運維的小年輕]的目標不明確,致使的結果呢就是返回的不少內容並非用戶所須要的。
2.聚焦爬蟲:全稱聚焦網絡爬蟲,又稱爲主題網絡爬蟲
優勢:目標明確,對用戶的需求很是精準,返回內容很固定,好比我就請求一張圖片,那麼就返回一張圖片。
關於爬蟲的分類其實在之後愈來愈深刻的學習中,會天然而然的理解,如今只需有個大概瞭解就好了關於網絡爬蟲分類日百度百科中講的比較詳細,點擊傳送門去了解。
原文出處:https://www.cnblogs.com/cx55887/p/10625477.html