day01_爬蟲和數據

一、什麼是爬蟲

1.一、爬蟲的定義

  腳本,程序--->自動抓取萬維網上信息的程序javascript

1.二、爬蟲的分類

​ 2.一、通用爬蟲html

​ 通用網絡爬蟲 是 捜索引擎抓取系統(Baidu、Google、Yahoo等)的重要組成部分。主要目的是將互聯網上的網頁下載到本地,造成一個互聯網內容的鏡像備份。前端

​ 2.一、聚焦爬蟲java

​ 是面向特定主題需求的一種網絡爬蟲程序,它與通用搜索引擎爬蟲的區別在於: *聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選,儘可能保證只抓取與需求相關的網頁信息。*python

1.三、爬蟲的做用

  • 解決冷啓動的問題。
  • 搜索引擎的根基。作搜索引擎,必須使用爬蟲。web

  • 幫助機器學習創建知識圖譜。
    • 機器學習最終的是訓練集。訓練集能夠靠爬蟲爬去
  • 能夠製做比較軟件。ajax

二、爬蟲工程師的發展歷程

3.一、初級工程師

  • web 前端的知識: HTML、CSS、JavaScript、 DOM、 DHTML 、Ajax、jQuery、json 等;
  • 正則表達式, 能提取正常通常網頁中想要的信息,好比某些特殊的文字, 連接信息, 知道什麼是懶惰, 什麼是貪婪型的正則;
  • 會使用 XPath 等獲取一些DOM 結構中的節點信息;
  • 知道什麼是深度優先, 廣度優先的抓取算法, 及實踐中的使用規則;
  • 能分析簡單網站的結構, 會使用urllib或requests 庫進行簡單的數據抓取。

 在解決web項目問題時,流程以下:正則表達式

  前端---> javascript---> python---> sql查詢--->數據庫redis

3.二、中級工程師

  • 瞭解什麼是Hash,會簡單地使用MD5,SHA1等算法對數據進行Hash一遍存儲算法

  • 熟悉HTTP,HTTPS協議的基礎知識,瞭解GET,POST方法,瞭解HTTP頭中的信息,包括返回狀態碼,編碼,user-agent,cookie,session等

  • 能設置user-agent進行數據爬取,設置代理等

  • 知道什麼事Request,什麼事response,會使用Fiddler等工具抓取及分析簡單地網絡數據包;對於動態爬蟲,要學會分析ajax請求,模擬製造post數據包請求,抓取客戶端session等信息,對於一些簡單的網站,可以經過模擬數據包進行自動登陸。

  • 對於一些難搞定的網站學會使用phantomjs+selenium抓取一些動態網頁信息

  • 併發下載,經過並行下載加速數據爬取;多線程的使用。

    多線程就是利用計算機的cpu,使cpu的利用變高,使程序運行速度加快。

3.三、高級工程師

  • 可以使用Tesseract,百度AI,HOG+SVM,CNN等庫進行驗證碼識別。
  • 能使用數據挖掘技術,分類算法等避免死鏈。
  • 會使用經常使用的數據庫進行數據存儲,查詢。好比mongoDB,redis;學習如何經過緩存避免重複下載的問題。
  • 可以使用機器學習的技術動態調整爬蟲的爬取策略,從而避免被禁IP封禁等。
  • 能使用一些開源框架scrapy,scrapy-redis等分佈式爬蟲,能部署掌控分佈式爬蟲進行大規模數據爬取。

三、搜索引擎

3.一、搜索引擎的定義

​ 搜索引擎就是運行一些策略和算法,從互聯網上獲取網頁信息,並將這些信息作一些處理以後保存起來,再爲用戶提供檢索服務的一種程序或系統。

3.二、搜索引擎的組成

​ 主要組成就是通用爬蟲。

3.三、通用爬蟲

(1)、通用爬蟲的定義
就是將互聯網上的網頁【總體】爬取下來,保存到本地的程序。

(2)、搜索引擎能夠獲取全部網頁的緣由

​ 搜索引擎經過不一樣url將全部網頁都保存到了本地。

(3)、搜索引擎網絡爬蟲的基本工做流程以下:

  1. 首先選取一部分的種子URL,將這些URL放入待抓取URL隊列;

  2. 取出待抓取URL,解析DNS獲得主機的IP,並將URL對應的網頁下載下來,存儲進已下載網頁庫中,而且將這些URL放進已抓取URL隊列。

  3. 分析已抓取URL隊列中的URL,分析其中的其餘URL,而且將URL放入待抓取URL隊列,從而進入下一個循環....

(4)、探索引擎搜索url來源:

  • 新網站會主動向搜索引擎提交本身的網址。

  • 在其餘網站上設置的外鏈會被搜索引擎加入到url隊列。
  • 搜索引擎和dns解析商合做,若是有新網站註冊,搜索引擎就能夠獲取網址。

可是搜索引擎蜘蛛的爬行是被輸入了必定的規則的,它須要聽從一些命令或文件的內容,如標註爲nofollow的連接,或者是Robots協議。

Robots協議(也叫爬蟲協議、機器人協議等),全稱是「網絡爬蟲排除標準」(Robots Exclusion Protocol),網站經過Robots協議告訴搜索引擎哪些頁面能夠抓取,哪些頁面不能抓取,例如:

淘寶網:https://www.taobao.com/robots.txt

騰訊網: http://www.qq.com/robots.txt

3.四、通用搜索引擎的工做過程

  • (1)使用通用爬蟲來抓取網頁
  • (2)數據存儲。
    先將網頁內容進行必定的去重操做,最後才保存。
  • (3)預處理
    • 提取出文字
    • 中文分詞。
    • 消除噪音(廣告,導航欄,版權聲明文字。)
    • 索引處理。
  • (4)設置網站排名,爲用戶提供檢索服務。

3.五、通用爬蟲的缺陷:

​ (1)只能爬取原網頁,可是通常網頁中90%的內容都是無用的。
​ (2)不能知足不一樣行業、不一樣人員的不一樣需求。
​ (3)只能獲取文字,不能獲取視頻,音頻,文件等內容。
​ (4)只能經過關鍵字查詢,沒法支持語義查詢。

3.六、聚焦爬蟲:

​ 在實施網頁抓取時,會對內容進行篩選,儘可能保證之抓取與需求相關的數據。

四、Http和Https請求與響應

4.一、http和https

HTTP協議(HyperText Transfer Protocol,超文本傳輸協議):是一種發佈和接收 HTML頁面的方法。

HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)簡單講是HTTP的安全版,在HTTP下加入SSL層。

SSL(Secure Sockets Layer 安全套接層)主要用於Web的安全傳輸協議,在傳輸層對網絡鏈接進行加密,保障在Internet上數據傳輸的安全。

  • HTTP的端口號爲80
  • HTTPS的端口號爲443

http的工做過程:

​ (1)地址解析:客戶端解析出url的每個部分

​ (2)分裝http請求數據包
​ (3)封裝tcp數據包,經過三次握手創建tcp鏈接。
​ (4)客戶端發送請求
​ (5)服務器發送響應。
​ (6)關閉tcp鏈接

http協議的特色:

  1. 基於應用層的協議。

  2. 無鏈接
    在http1.0以前每次發送http都是單獨鏈接,自從http1.1以後,只需設置一個請求頭Connection,就能夠作到一個長鏈接。

  3. 無狀態。

    http協議不記錄狀態,每次請求,若是想要到以前請求的內容,必須單獨發送。爲了解決這種問題,產生一種技術,就叫cookie和session。

4.二、HTTP的請求與響應:

HTTP通訊由兩部分組成: 客戶端請求消息服務器響應消息

瀏覽器發送HTTP請求的過程:

  1. 當用戶在瀏覽器的地址欄中輸入一個URL並按回車鍵以後,瀏覽器解析url,封裝http請求和TCP鏈接數據包,此時瀏覽器纔會向HTTP服務器發送HTTP請求。HTTP請求主要分爲GetPost兩種方式。
  2. HTTP服務器收到Request請求後,解析數據包,並把Response文件對象發送回給瀏覽器。
  3. 瀏覽器分析Response中的 HTML,發現其中引用了不少其餘文件,好比Images文件,CSS文件,JS文件。 瀏覽器會自動再次發送Request請求去獲取圖片、CSS文件、JS文件。
  4. 當全部的文件都下載成功後,網頁會根據HTML語法結構,完整的顯示出來了。

URL(Uniform / Universal Resource Locator的縮寫):統一資源定位符,是用於完整地描述Internet上網頁和其餘資源的地址的一種標識方法。

基本格式:scheme://host[:port#]/path/…/[?query-string][#anchor]

  • scheme:協議(例如:http, https, ftp)
  • host:服務器的IP地址或者域名
  • port#:服務器的端口(若是是走協議默認端口,缺省端口80)
  • path:訪問資源的路徑
  • query-string:請求參數,發送給http服務器的數據
  • anchor:錨(跳轉到網頁的指定錨點位置)

python的urllib下的parse模塊能夠幫助咱們解析一個url

from urllib import parse

url = 'https://localhost:9999/bin/index.html?usename=zhangsanY&password=123#bottom'
parse_result = parse.urlparse(url)
print(parse_result)
print(parse_result.netloc)
print(parse_result.path)

運行結果:
ParseResult(
    scheme='https', 
    netloc='localhost:9999', 
    path='/bin/index.html', 
    params='', 
    query='usename=zhangsanY&password=123', 
    fragment='bottom')

localhost:9999
    /bin/index.html

4.三、客戶端HTTP請求

URL只是標識資源的位置,而HTTP是用來提交和獲取資源。客戶端發送一個HTTP請求到服務器的請求消息,包括如下格式:

請求行請求頭部空行請求數據

四個部分組成,下圖給出了請求報文的通常格式。

一個典型的HTTP請求示例

GET https://www.baidu.com/ HTTP/1.1
Host: www.baidu.com
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Referer: http://www.baidu.com/
Accept-Encoding: gzip, deflate, sdch, br
Accept-Language: zh-CN,zh;q=0.8,en;q=0.6
Cookie: BAIDUID=04E4001F34EA74AD4601512DD3C41A7B:FG=1; BIDUPSID=04E4001F34EA74AD4601512DD3C41A7B; PSTM=1470329258; MCITY=-343%3A340%3A; BDUSS=nF0MVFiMTVLcUh-Q2MxQ0M3STZGQUZ4N2hBa1FFRkIzUDI3QlBCZjg5cFdOd1pZQVFBQUFBJCQAAAAAAAAAAAEAAADpLvgG0KGyvLrcyfrG-AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFaq3ldWqt5XN; H_PS_PSSID=1447_18240_21105_21386_21454_21409_21554; BD_UPN=12314753; sug=3; sugstore=0; ORIGIN=0; bdime=0; H_PS_645EC=7e2ad3QHl181NSPbFbd7PRUCE1LlufzxrcFmwYin0E6b%2BW8bbTMKHZbDP0g; BDSVRTM=0

HTTP請求主要分爲GetPost兩種方法

  • GET是從服務器上獲取數據,POST是向服務器傳送數據
  • GET請求參數顯示,都顯示在瀏覽器網址上,HTTP服務器根據該請求所包含URL中的參數來產生響應內容,即「Get」請求的參數是URL的一部分。 例如: http://www.baidu.com/s?wd=Chinese
  • POST請求參數在請求體當中,消息長度沒有限制並且以隱式的方式進行發送,一般用來向HTTP服務器提交量比較大的數據(好比請求中包含許多參數或者文件上傳操做等),請求的參數包含在「Content-Type」消息頭裏,指明該消息體的媒體類型和編碼,

注意:避免使用Get方式提交表單,由於有可能會致使安全問題。 好比說在登錄表單中用Get方式,用戶輸入的用戶名和密碼將在地址欄中暴露無遺。

4.四、經常使用的請求報頭

一、Host (主機和端口號)

Host:對應網址URL中的Web名稱和端口號,用於指定被請求資源的Internet主機和端口號,一般屬於URL的一部分。

二、Connection (連接類型)

Connection:表示客戶端與服務鏈接類型

  1. Client 發起一個包含 Connection:keep-alive 的請求,HTTP/1.1使用 keep-alive 爲默認值。
  2. Server收到請求後:
    • 若是 Server 支持 keep-alive,回覆一個包含 Connection:keep-alive 的響應,不關閉鏈接;
    • 若是 Server 不支持 keep-alive,回覆一個包含 Connection:close 的響應,關閉鏈接。
  3. 若是client收到包含 Connection:keep-alive 的響應,向同一個鏈接發送下一個請求,直到一方主動關閉鏈接。

keep-alive在不少狀況下可以重用鏈接,減小資源消耗,縮短響應時間,好比當瀏覽器須要多個文件時(好比一個HTML文件和相關的圖形文件),不須要每次都去請求創建鏈接。

三、Upgrade-Insecure-Requests (升級爲HTTPS請求)

Upgrade-Insecure-Requests:升級不安全的請求,意思是會在加載 http 資源時自動替換成 https 請求,讓瀏覽器再也不顯示https頁面中的http請求警報。

*HTTPS 是以安全爲目標的 HTTP 通道,因此在 HTTPS 承載的頁面上不容許出現 HTTP 請求,一旦出現就是提示或報錯。*

四、User-Agent (客戶端標識)

User-Agent:是客戶瀏覽器的名稱

五、Accept (傳輸文件類型)

Accept:指瀏覽器或其餘客戶端能夠接受的MIME(Multipurpose Internet Mail Extensions(多用途互聯網郵件擴展))文件類型,服務器能夠根據它判斷並返回適當的文件格式。

舉例:

Accept: */*:表示什麼均可以接收。

Accept:image/gif:代表客戶端但願接受GIF圖像格式的資源;

Accept:text/html:代表客戶端但願接受html文本。

Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8:表示瀏覽器支持的 MIME 類型分別是 html文本、xhtml和xml文檔、全部的圖像格式資源。

*q是權重係數,範圍 0 =< q <= 1,q 值越大,請求越傾向於得到其「;」以前的類型表示的內容。若沒有指定q值,則默認爲1,按從左到右排序順序;若被賦值爲0,則用於表示瀏覽器不接受此內容類型。*

***Text:用於標準化地表示的文本信息,文本消息能夠是多種字符集和或者多種格式的;Application:用於傳輸應用程序數據或者二進制數據。html文件類型

六、Referer (頁面跳轉處)

Referer:代表產生請求的網頁來自於哪一個URL,用戶是從該 Referer頁面訪問到當前請求的頁面。這個屬性能夠用來跟蹤Web請求來自哪一個頁面,是從什麼網站來的等。

有時候遇到下載某網站圖片,須要對應的referer,不然沒法下載圖片,那是由於人家作了防盜鏈,原理就是根據referer去判斷是不是本網站的地址,若是不是,則拒絕,若是是,就能夠下載;

7. Accept-Encoding(文件編解碼格式)

Accept-Encoding:指出瀏覽器能夠接受的編碼方式。編碼方式不一樣於文件格式,它是爲了壓縮文件並加速文件傳遞速度。瀏覽器在接收到Web響應以後先解碼,而後再檢查文件格式,許多情形下這能夠減小大量的下載時間。

**舉例:Accept-Encoding:gzip;q=1.0, identity; q=0.5, *;q=0**

若是有多個Encoding同時匹配, 按照q值順序排列,本例中按順序支持 gzip, identity壓縮編碼,支持gzip的瀏覽器會返回通過gzip編碼的HTML頁面。 若是請求消息中沒有設置這個域服務器假定客戶端對各類內容編碼均可以接受。

8. Accept-Language(語言種類)

Accept-Langeuage:指出瀏覽器能夠接受的語言種類,如en或en-us指英語,zh或者zh-cn指中文,當服務器可以提供一種以上的語言版本時要用到。

9. Accept-Charset(字符編碼)

Accept-Charset:指出瀏覽器能夠接受的字符編碼。

舉例:Accept-Charset:iso-8859-1,gb2312,utf-8

  • ISO8859-1:一般叫作Latin-1。Latin-1包括了書寫全部西方歐洲語言不可缺乏的附加字符,英文瀏覽器的默認值是ISO-8859-1.
  • gb2312:標準簡體中文字符集;
  • utf-8:Unicode 的一種變長字符編碼,能夠解決多種語言文本顯示問題,從而實現應用國際化和本地化。

若是在請求消息中沒有設置這個域,缺省是任何字符集均可以接受。

10. Cookie (Cookie)

Cookie:瀏覽器用這個屬性向服務器發送Cookie。Cookie是在瀏覽器中寄存的小型數據體,它能夠記載和服務器相關的用戶信息,也能夠用來實現會話功能,之後會詳細講。

11. Content-Type (POST數據類型)

Content-Type:POST請求裏用來表示的內容類型。

舉例:Content-Type = Text/XML; charset=gb2312:

指明該請求的消息體中包含的是純文本的XML類型的數據,字符編碼採用「gb2312」。

12. content-length (POST數據長度)

post請求的請求數據的長度

13. x-requested-with:xmlhttprequest--xhr

當咱們發送一個ajax接口數據,想要獲取數據內容,必須封裝這個頭,這個頭就表示這個請求是一個ajax。

4.五、服務端HTTP響應

HTTP響應也由四個部分組成,分別是: 狀態行消息報頭空行響應正文

HTTP/1.1 200 OK
Server: Tengine
Connection: keep-alive
Date: Wed, 30 Nov 2016 07:58:21 GMT
Cache-Control: no-cache
Content-Type: text/html;charset=UTF-8
Keep-Alive: timeout=20
Vary: Accept-Encoding
Pragma: no-cache
X-NWS-LOG-UUID: bd27210a-24e5-4740-8f6c-25dbafa9c395
Content-Length: 180945

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" ....

4.六、經常使用的響應報頭

一、Cache-Control:must-revalidate, no-cache, private。

這個值告訴客戶端,服務端不但願客戶端緩存資源,在下次請求資源時,必需要重新請求服務器,不能從緩存副本中獲取資源。

  • Cache-Control是響應頭中很重要的信息,當客戶端請求頭中包含Cache-Control:max-age=0請求,明確表示不會緩存服務器資源時,Cache-Control做爲做爲迴應信息,一般會返回no-cache,意思就是說,"那就不緩存唄"。
  • 當客戶端在請求頭中沒有包含Cache-Control時,服務端每每會定,不一樣的資源不一樣的緩存策略,好比說oschina在緩存圖片資源的策略就是Cache-Control:max-age=86400,這個意思是,從當前時間開始,在86400秒的時間內,客戶端能夠直接從緩存副本中讀取資源,而不須要向服務器請求。

二、 Connection:keep-alive

這個字段做爲迴應客戶端的Connection:keep-alive,告訴客戶端服務器的tcp鏈接也是一個長鏈接,客戶端能夠繼續使用這個tcp鏈接發送http請求。

三、Content-Encoding:gzip

告訴客戶端,服務端發送的資源是採用gzip編碼的,客戶端看到這個信息後,應該採用gzip對資源進行解碼。

4.、Content-Type:text/html;charset=UTF-8

告訴客戶端,資源文件的類型,還有字符編碼,客戶端經過utf-8對資源進行解碼,而後對資源進行html解析。一般咱們會看到有些網站是亂碼的,每每就是服務器端沒有返回正確的編碼。

五、 Date:Sun, 21 Sep 2016 06:18:21 GMT

這個是服務端發送資源時的服務器時間,GMT是格林尼治所在地的標準時間。http協議中發送的時間都是GMT的,這主要是解決在互聯網上,不一樣時區在相互請求資源的時候,時間混亂問題。

六、 Expires:Sun, 1 Jan 2000 01:00:00 GMT

這個響應頭也是跟緩存有關的,告訴客戶端在這個時間前,能夠直接訪問緩存副本,很顯然這個值會存在問題,由於客戶端和服務器的時間不必定會都是相同的,若是時間不一樣就會致使問題。因此這個響應頭是沒有Cache-Control:max-age=*這個響應頭準確的,由於max-age=date中的date是個相對時間,不只更好理解,也更準確。

七、 Pragma:no-cache

這個含義與Cache-Control等同。

八、Server:Tengine/1.4.6

這個是服務器和相對應的版本,只是告訴客戶端服務器的信息。

九、Transfer-Encoding:chunked

這個響應頭告訴客戶端,服務器發送的資源的方式是分塊發送的。通常分塊發送的資源都是服務器動態生成的,在發送時還不知道發送資源的大小,因此採用分塊發送,每一塊都是獨立的,獨立的塊都能標示本身的長度,最後一塊是0長度的,當客戶端讀到這個0長度的塊時,就能夠肯定資源已經傳輸完了。

十、Vary: Accept-Encoding

告訴緩存服務器,緩存壓縮文件和非壓縮文件兩個版本,如今這個字段用處並不大,由於如今的瀏覽器都是支持壓縮的。

Cookie 和 Session:

服務器和客戶端的交互僅限於請求/響應過程,結束以後便斷開,在下一次請求時,服務器會認爲新的客戶端。

爲了維護他們之間的連接,讓服務器知道這是前一個用戶發送的請求,必須在一個地方保存客戶端的信息。

Cookie:經過在 客戶端 記錄的信息肯定用戶的身份。

Session:經過在 服務器端 記錄的信息肯定用戶的身份。

4.七、響應狀態碼

響應狀態代碼由三位數字組成,第一個數字定義了響應的類別,且有五種可能取值。

常見狀態碼:

  • 100~199:表示服務器成功接收部分請求,要求客戶端繼續提交其他請求才能完成整個處理過程。
  • 200~299:表示服務器成功接收請求並已完成整個處理過程。經常使用200(OK 請求成功)。
  • 300~399:爲完成請求,客戶需進一步細化請求。例如:請求的資源已經移動一個新地址、經常使用302(所請求的頁面已經臨時轉移至新的url)、307和304(使用緩存資源)。
  • 400~499:客戶端的請求有錯誤,經常使用404(服務器沒法找到被請求的頁面)、403(服務器拒絕訪問,權限不夠)。
  • 500~599:服務器端出現錯誤,經常使用500(請求未完成。服務器遇到不可預知的狀況)。

http://www.javashuo.com/article/p-zikdnfpi-ct.html

HTTP響應狀態碼參考:

1xx:信息

100 Continue
服務器僅接收到部分請求,可是一旦服務器並無拒絕該請求,客戶端應該繼續發送其他的請求。
101 Switching Protocols
服務器轉換協議:服務器將聽從客戶的請求轉換到另一種協議。



2xx:成功

200 OK
請求成功(其後是對GET和POST請求的應答文檔)
201 Created
請求被建立完成,同時新的資源被建立。
202 Accepted
供處理的請求已被接受,可是處理未完成。
203 Non-authoritative Information
文檔已經正常地返回,但一些應答頭可能不正確,由於使用的是文檔的拷貝。
204 No Content
沒有新文檔。瀏覽器應該繼續顯示原來的文檔。若是用戶按期地刷新頁面,而Servlet能夠肯定用戶文檔足夠新,這個狀態代碼是頗有用的。
205 Reset Content
沒有新文檔。但瀏覽器應該重置它所顯示的內容。用來強制瀏覽器清除表單輸入內容。
206 Partial Content
客戶發送了一個帶有Range頭的GET請求,服務器完成了它。



3xx:重定向

300 Multiple Choices
多重選擇。連接列表。用戶能夠選擇某連接到達目的地。最多容許五個地址。
301 Moved Permanently
所請求的頁面已經轉移至新的url。
302 Moved Temporarily
所請求的頁面已經臨時轉移至新的url。
303 See Other
所請求的頁面可在別的url下被找到。
304 Not Modified
未按預期修改文檔。客戶端有緩衝的文檔併發出了一個條件性的請求(通常是提供If-Modified-Since頭表示客戶只想比指定日期更新的文檔)。服務器告訴客戶,原來緩衝的文檔還能夠繼續使用。
305 Use Proxy
客戶請求的文檔應該經過Location頭所指明的代理服務器提取。
306 Unused
此代碼被用於前一版本。目前已再也不使用,可是代碼依然被保留。
307 Temporary Redirect
被請求的頁面已經臨時移至新的url。



4xx:客戶端錯誤

400 Bad Request
服務器未能理解請求。
401 Unauthorized
被請求的頁面須要用戶名和密碼。
401.1
登陸失敗。
401.2
服務器配置致使登陸失敗。
401.3
因爲 ACL 對資源的限制而未得到受權。
401.4
篩選器受權失敗。
401.5
ISAPI/CGI 應用程序受權失敗。
401.7
訪問被 Web 服務器上的 URL 受權策略拒絕。這個錯誤代碼爲 IIS 6.0 所專用。
402 Payment Required
此代碼尚沒法使用。
403 Forbidden
對被請求頁面的訪問被禁止。
403.1
執行訪問被禁止。
403.2
讀訪問被禁止。
403.3
寫訪問被禁止。
403.4
要求 SSL。
403.5
要求 SSL 128。
403.6
IP 地址被拒絕。
403.7
要求客戶端證書。
403.8
站點訪問被拒絕。
403.9
用戶數過多。
403.10
配置無效。
403.11
密碼更改。
403.12
拒絕訪問映射表。
403.13
客戶端證書被吊銷。
403.14
拒絕目錄列表。
403.15
超出客戶端訪問許可。
403.16
客戶端證書不受信任或無效。
403.17
客戶端證書已過時或還沒有生效。
403.18
在當前的應用程序池中不能執行所請求的 URL。這個錯誤代碼爲 IIS 6.0 所專用。
403.19
不能爲這個應用程序池中的客戶端執行 CGI。這個錯誤代碼爲 IIS 6.0 所專用。
403.20
Passport 登陸失敗。這個錯誤代碼爲 IIS 6.0 所專用。
404 Not Found
服務器沒法找到被請求的頁面。
404.0
沒有找到文件或目錄。
404.1
沒法在所請求的端口上訪問 Web 站點。
404.2
Web 服務擴展鎖定策略阻止本請求。
404.3
MIME 映射策略阻止本請求。
405 Method Not Allowed
請求中指定的方法不被容許。
406 Not Acceptable
服務器生成的響應沒法被客戶端所接受。
407 Proxy Authentication Required
用戶必須首先使用代理服務器進行驗證,這樣請求才會被處理。
408 Request Timeout
請求超出了服務器的等待時間。
409 Conflict
因爲衝突,請求沒法被完成。
410 Gone
被請求的頁面不可用。
411 Length Required
"Content-Length" 未被定義。若是無此內容,服務器不會接受請求。
412 Precondition Failed
請求中的前提條件被服務器評估爲失敗。
413 Request Entity Too Large
因爲所請求的實體的太大,服務器不會接受請求。
414 Request-url Too Long
因爲url太長,服務器不會接受請求。當post請求被轉換爲帶有很長的查詢信息的get請求時,就會發生這種狀況。
415 Unsupported Media Type
因爲媒介類型不被支持,服務器不會接受請求。
416 Requested Range Not Satisfiable
服務器不能知足客戶在請求中指定的Range頭。
417 Expectation Failed
執行失敗。
423
鎖定的錯誤。



5xx:服務器錯誤

500 Internal Server Error
請求未完成。服務器遇到不可預知的狀況。
500.12
應用程序正忙於在 Web 服務器上從新啓動。
500.13
Web 服務器太忙。
500.15
不容許直接請求 Global.asa。
500.16
UNC 受權憑據不正確。這個錯誤代碼爲 IIS 6.0 所專用。
500.18
URL 受權存儲不能打開。這個錯誤代碼爲 IIS 6.0 所專用。
500.100
內部 ASP 錯誤。
501 Not Implemented
請求未完成。服務器不支持所請求的功能。
502 Bad Gateway
請求未完成。服務器從上游服務器收到一個無效的響應。
502.1
CGI 應用程序超時。 ·
502.2
CGI 應用程序出錯。
503 Service Unavailable
請求未完成。服務器臨時過載或當機。
504 Gateway Timeout
網關超時。
505 HTTP Version Not Supported
服務器不支持請求中指明的HTTP協議版本

五、爬蟲的準備工做

5.一、robots協議

​ 定義:網絡爬蟲排除標準
​ 做用:告訴搜索引擎哪些能夠爬哪些不能爬。

5.二、sitemap

​ 網站地圖,能夠幫助咱們瞭解一個網站的結構。

5.三、估算網站的大小

site:www.taobao.com

六、Hash算法

6.一、定義

​ Hash :散列,經過關於鍵值(key)的函數,將數據映射到內存存儲中一個位置來訪問。這個過程叫作Hash,這個映射函數稱作散列函數,存放記錄的數組稱作散列表(Hash Table),又叫哈希表。

img

簡單地說,它是密碼學中的一個重要的函數,通常以 img 表示 。這個函數能夠將任意一段數據(通常稱這段數據爲「消息」)壓縮成固定長度的字符串(通常稱輸出的字符串爲「摘要」)。哈希函數須要知足下述條件:

  • 肯定性:哈希函數的算法是肯定性算法,算法執行過程不引入任何隨機量。這意味着相同消息的哈希結果必定相同。
  • 高效性:給定任意一個消息m,能夠快速計算

img

  • 目標抗碰撞性:給定任意一個消息m1,很難找到另外一個消息m2,使得 img
  • 廣義抗碰撞性:很難找到兩個消息m0不等於m1的狀況下,使得 img

6.二、優勢

先分類,再查找,經過計算,縮小範圍,加快查找速度

6.三、 Hash的做用

  • 數字簽名:給數據打指紋

    好比咱們下載一個文件,文件的下載過程當中會通過不少網絡服務器、路由器的中轉,如何保證這個文件就是咱們所須要的呢?咱們不可能去一一檢測這個文件的每一個字節,也不能簡單地利用文件名、文件大小這些極容易假裝的信息,這時候,咱們就須要一種指紋同樣的標誌來檢查文件的可靠性,這種指紋就是咱們如今所用的Hash算法(也叫散列算法)。

  • 密碼存儲

    在用戶進行網站登陸時,若是服務器直接存儲用戶密碼,則若是服務器被攻擊者所攻擊,用戶的密碼就會遭到泄露。最典型的事件就是CSDN的密碼明文存儲事件了。爲了解決這個問題,服務器能夠僅存儲用戶密碼的哈希結果。當用戶輸入登陸信息後,服務器端能夠計算密碼的哈希結果,並與存儲的哈希結果進行對比,若是結果相同,則容許用戶登陸。因爲服務器不直接存儲用戶密碼,所以即便服務器被攻擊者攻擊,用戶的密碼也不會被泄露。這也是爲何咱們在使用【找回密碼】功能時,服務器直接請求輸入新的密碼,而不是把原始密碼發送給咱們。

6.四、hash算法的特性

  • 正向快速:給定明文和 hash 算法,在有限時間和有限資源內能計算出 hash 值。

  • 逆向困難:給定(若干) hash 值,在有限時間內很難(基本不可能)逆推出明文。

  • 輸入敏感:原始輸入信息修改一點信息,產生的 hash 值看起來應該都有很大不一樣。

  • 衝突避免:很難找到兩段內容不一樣的明文,使得它們的 hash 值一致(發生衝突)。

    即對於任意兩個不一樣的數據塊,其hash值相同的可能性極小;對於一個給定的數據塊,找到和它hash值相同的數據塊極爲困難。因此由於他的不可逆性,hash算法經常用來給一些信息加密,由於這種不可逆性,你不只不可能根據一段經過散列算法獲得的指紋來得到原有的文件,也不可能簡單地創造一個文件並讓它的指紋與一段目標指紋相一致。

6.五、hash算法(瞭解)

(1)直接定值法:取Key或者Key的某個線性函數值爲散列地址。

(2)數字分析法:須要知道Key的集合,而且Key的位數比地址位數多,選擇Key數字分佈均勻的位。

Hash(Key) 取六位:

列數 : 1   (2)   3   (4)   5   (6)   (7)   8   (9)   10   11   12   (13)

key1:  5    2    4    2    7    5     8     5     3     6     5     1      3

key2:  5    4    4    8    7    7     7     5     4     8     9     5      1

key3:  3    1    5    3    7    8    5      4     6     3      5     5     2

key4:  5    3    6    4    3    2      5    4     5      3      2    6     4


其中(二、四、六、七、九、13) 這6列數字無重複,分佈較均勻,取此六列做爲Hash(Key)的值。

Hash(Key1) :225833

Hash(Key2):487741

Hash(Key3):138562

Hash(Key4):342554

(3)平方取中法:取Key平方值的中間幾位做爲Hash地址。

(4)摺疊法:將關鍵字分割成位數相同的幾部分(最後一部分的位數能夠不一樣),而後 取這幾部分的疊加和(捨去進位)做爲哈希地址。 當Key的位數較多的時候數字分佈均勻適合採用這種方案.

(5)隨機數法:僞隨機探測再散列。

​ 具體實現:創建一個僞隨機數發生器,Hash(Key) = random(Key). 以此僞隨機數做爲哈希地址。

(6)除留餘數法:取關鍵字被某個除數 p 求餘,獲得的做爲散列地址。

​ 即 H(Key) = Key % p;

6.六、Hash有哪些流行的算法

目前流行的 Hash 算法包括 MD五、SHA-1 和 SHA-2。

  • MD4(RFC 1320)是 MIT 的 Ronald L. Rivest 在 1990 年設計的,MD 是 Message Digest 的縮寫。其輸出爲 128 位。MD4 已證實不夠安全。
  • MD5(RFC 1321)是 Rivest 於1991年對 MD4 的改進版本。它對輸入仍以 512 位分組,其輸出是 128 位。MD5 比 MD4 複雜,而且計算速度要慢一點,更安全一些。MD5 已被證實不具有」強抗碰撞性」。
  • SHA (Secure Hash Algorithm)是一個 Hash 函數族,由 NIST(National Institute of Standards and Technology)於 1993 年發佈第一個算法。目前知名的 SHA-1 在 1995 年面世,它的輸出爲長度 160 位的 hash 值,所以抗窮舉性更好。SHA-1 設計時基於和 MD4 相同原理,而且模仿了該算法。SHA-1 已被證實不具」強抗碰撞性」。

  • 爲了提升安全性,NIST 還設計出了 SHA-22四、SHA-25六、SHA-384,和 SHA-512 算法(統稱爲 SHA-2),跟 SHA-1 算法原理相似。SHA-3 相關算法也已被提出。

6.七、何謂Hash算法的「碰撞」

​ 若是兩個key經過hash函數處理以後獲得的散列值相同,這種狀況就叫作散列算法的碰撞(collision)。

​ 現代散列算法所存在的理由就是,它的不可逆性能在較大機率上獲得實現,也就是說,發現碰撞的機率很小,這種碰撞能被利用的機率更小。

(1) MD5碰撞案例

import hashlib

#  兩段HEX字節串,注意它們有細微差異
a = bytearray.fromhex("0e306561559aa787d00bc6f70bbdfe3404cf03659e704f8534c00ffb659c4c8740cc942feb2da115a3f4155cbb8607497386656d7d1f34a42059d78f5a8dd1ef")

b = bytearray.fromhex("0e306561559aa787d00bc6f70bbdfe3404cf03659e744f8534c00ffb659c4c8740cc942feb2da115a3f415dcbb8607497386656d7d1f34a42059d78f5a8dd1ef")

#  輸出MD5,它們的結果一致
print(hashlib.md5(a).hexdigest())
print(hashlib.md5(b).hexdigest())

這樣的例子還有不少。所以,MD5在數年前就已經不被推薦做爲應用中的散列算法方案,取代它的是SHA家族算法,也就是安全散列算法(Secure Hash Algorithm,縮寫爲SHA)。

(2) SHA家族算法以及SHA1碰撞

​ SHA家族算法的種類不少,有SHA0、SHA一、SHA25六、SHA384等等,它們的計算方式和計算速度都有差異。其中SHA1是如今用途最普遍的一種算法。包括GitHub在內的衆多版本控制工具以及各類雲同步服務都是用SHA1來區別文件,不少安全證書或是簽名也使用SHA1來保證惟一性。長期以來,人們都認爲SHA1是十分安全的,至少你們尚未找到一次碰撞案例。

hash在知乎上的一遍經典文章:https://www.zhihu.com/question/56234281/answer/148349930

相關文章
相關標籤/搜索