爬蟲基礎

時間 2019-11-09

原文原文鏈接

爬蟲基礎

爬蟲相關概念簡介

什麼是爬蟲

爬蟲就是經過編寫程序模擬瀏覽器上網，而後讓其去互聯網上抓取數據的過程。

哪些語言能夠實現爬蟲

　　1.php：能夠實現爬蟲。php被號稱是全世界最優美的語言（固然是其本身號稱的，就是王婆賣瓜的意思），可是php在實現爬蟲中支持多線程和多進程方面作的很差。 　　2.java：能夠實現爬蟲。java能夠很是好的處理和實現爬蟲，是惟一能夠與python並駕齊驅且是python的頭號勁敵。可是java實現爬蟲代碼較爲臃腫，重構成本較大。 　　3.c、c++：能夠實現爬蟲。可是使用這種方式實現爬蟲純粹是是某些人（大佬們）能力的體現，卻不是明智和合理的選擇。 　　4.python：能夠實現爬蟲。python實現和處理爬蟲語法簡單，代碼優美，支持的模塊繁多，學習成本低，具備很是強大的框架（scrapy等）且一句難以言表的好！沒有可是！

爬蟲的分類：根據使用場景能夠分爲以下兩類

1.通用爬蟲：通用爬蟲是搜索引擎（Baidu、Google、Yahoo等）「抓取系統」的重要組成部分。主要目的是將互聯網上的網頁下載到本地，造成一個互聯網內容的鏡像備份。 　　　　1）搜索引擎如何抓取互聯網上的網站數據？ 　　　　　　a)門戶網站主動向搜索引擎公司提供其網站的url 　　　　　　b)搜索引擎公司與DNS服務商合做，獲取網站的url 　　　　　　c)門戶網站主動掛靠在一些知名網站的友情連接中 2.聚焦爬蟲：聚焦爬蟲是根據指定的需求抓取網絡上指定的數據。例如：獲取豆瓣上電影的名稱和影評，而不是獲取整張頁面中全部的數據值。

robots.txt協議

若是本身的門戶網站中的指定頁面中的數據不想讓爬蟲程序爬取到的話，那麼則能夠經過編寫一個robots.txt的協議文件來約束爬蟲程序的數據爬取。robots協議的編寫格式能夠觀察淘寶網的robots（訪問www.taobao.com/robots.txt便可）。可是須要注意的是，該協議只是至關於口頭的協議，並無使用相關技術進行強制管制，因此該協議是防君子不防小人。可是咱們在學習爬蟲階段編寫的爬蟲程序能夠先忽略robots協議。

反爬蟲

門戶網站經過相應的策略和技術手段，防止爬蟲程序進行網站數據的爬取。

反反爬蟲

爬蟲程序經過相應的策略和技術手段，破解門戶網站的反爬蟲手段，從而爬取到相應的數據。

http和https協議

HTTP協議

1.官方概念： 　　HTTP協議是Hyper Text Transfer Protocol（超文本傳輸協議）的縮寫,是用於從萬維網（WWW:World Wide Web ）服務器傳輸超文本到本地瀏覽器的傳送協議。（雖然童鞋們將這條概念都看爛了，可是也沒辦法，畢竟這就是HTTP的權威官方的概念解釋，要想完全理解，請客觀目移下側......） 2.白話概念： 　　HTTP協議就是服務器（Server）和客戶端（Client）之間進行數據交互（相互傳輸數據）的一種形式。咱們能夠將Server和Client進行擬人化，那麼該協議就是Server和Client這兩兄弟間指定的一種交互溝通方式。 3.HTTP工做原理: HTTP協議工做於客戶端-服務端架構爲上。瀏覽器做爲HTTP客戶端經過URL向HTTP服務端即WEB服務器發 送全部請求。Web服務器根據接收到的請求後，向客戶端發送響應信息。 4.HTTP四點注意事項： 　　- HTTP容許傳輸任意類型的數據對象。正在傳輸的類型由Content-Type加以標記。 　　- HTTP是無鏈接：無鏈接的含義是限制每次鏈接只處理一個請求。服務器處理完客戶的請求，並收到客戶的應答後，即斷開鏈接。採用這種方式能夠節省傳輸時間。 　　- HTTP是媒體獨立的：這意味着，只要客戶端和服務器知道如何處理的數據內容，任何類型的數據均可以經過HTTP發送。客戶端以及服務器指定使用適合的MIME-type內容類型。 　　- HTTP是無狀態：HTTP協議是無狀態協議。無狀態是指協議對於事務處理沒有記憶能力。缺乏狀態意味着若是後續處理須要前面的信息，則它必須重傳，這樣可能致使每次鏈接傳送的數據量增大。另外一方面，在服務器不須要先前信息時它的應答就較快。 5.HTTP之URL： 　　HTTP使用統一資源標識符（Uniform Resource Identifiers, URI）來傳輸數據和創建鏈接。URL是一種特殊類型的URI，包含了用於查找某個資源的足夠的信息 6.HTTP之Request： 常見的請求頭： 　　　　accept:瀏覽器經過這個頭告訴服務器，它所支持的數據類型 　　　　Accept-Charset: 瀏覽器經過這個頭告訴服務器，它支持哪一種字符集 　　　　Accept-Encoding：瀏覽器經過這個頭告訴服務器，支持的壓縮格式 　　　　Accept-Language：瀏覽器經過這個頭告訴服務器，它的語言環境 　　　　Host：瀏覽器經過這個頭告訴服務器，想訪問哪臺主機 　　　　If-Modified-Since: 瀏覽器經過這個頭告訴服務器，緩存數據的時間 　　　　Referer：瀏覽器經過這個頭告訴服務器，客戶機是哪一個頁面來的 防盜鏈 　　　　Connection：瀏覽器經過這個頭告訴服務器，請求完後是斷開連接仍是何持連接 　　　　X-Requested-With: XMLHttpRequest 表明經過ajax方式進行訪問 　　　　User-Agent：請求載體的身份標識 　　報文體：常被叫作請求體，請求體中存儲的是將要傳輸/發送給服務器的數據信息。 7.HTTP之Response：
 常見的相應頭信息： 　　　　Location: 服務器經過這個頭，來告訴瀏覽器跳到哪裏 　　　　Server：服務器經過這個頭，告訴瀏覽器服務器的型號 　　　　Content-Encoding：服務器經過這個頭，告訴瀏覽器，數據的壓縮格式 　　　　Content-Length: 服務器經過這個頭，告訴瀏覽器回送數據的長度 　　　　Content-Language: 服務器經過這個頭，告訴瀏覽器語言環境 　　　　Content-Type：服務器經過這個頭，告訴瀏覽器回送數據的類型 　　　　Refresh：服務器經過這個頭，告訴瀏覽器定時刷新 　　　　Content-Disposition: 服務器經過這個頭，告訴瀏覽器如下載方式打數據 　　　　Transfer-Encoding：服務器經過這個頭，告訴瀏覽器數據是以分塊方式回送的 　　　　Expires: -1 控制瀏覽器不要緩存 　　　　Cache-Control: no-cache 　　　　Pragma: no-cache 　　相應體：根據客戶端指定的請求信息，發送給客戶端的指定數據

HTTPS協議

1.官方概念： 　　HTTPS (Secure Hypertext Transfer Protocol)安全超文本傳輸協議，HTTPS是在HTTP上創建SSL加密層，並對傳輸數據進行加密，是HTTP協議的安全版。 2.白話概念： 　　加密安全版的HTTP協議。
　　 3.HTTPS採用的加密技術
　　 3.1 SSL加密技術 　　 SSL採用的加密技術叫作「共享密鑰加密」，也叫做「對稱密鑰加密」，這種加密方法是這樣的，好比客 戶端向服務器發送一條信息，首先客戶端會採用已知的算法對信息進行加密，好比MD5或者Base64加密， 接收端對加密的信息進行解密的時候須要用到密鑰，中間會傳遞密鑰，（加密和解密的密鑰是同一個）， 密鑰在傳輸中間是被加密的。這種方式看起來安全，可是仍有潛在的危險，一旦被竊聽，或者信息被挾持 ，就有可能破解密鑰，而破解其中的信息。所以「共享密鑰加密」這種方式存在安全隱患： 

3.2 非對稱祕鑰加密技術 　　 「非對稱加密」使用的時候有兩把鎖，一把叫作「私有密鑰」，一把是「公開密鑰」，使用非對象加密 的加密方式的時候，服務器首先告訴客戶端按照本身給定的公開密鑰進行加密處理，客戶端按照公開密 鑰加密之後，服務器接受到信息再經過本身的私有密鑰進行解密，這樣作的好處就是解密的鑰匙根本就 不會進行傳輸，所以也就避免了被挾持的風險。就算公開密鑰被竊聽者拿到了，它也很難進行解密，因 爲解密過程是對離散對數求值，這可不是垂手可得就能作到的事。 　　可是非對稱祕鑰加密技術也存在以下缺點： 　　　　第一個是：如何保證接收端向發送端發出公開祕鑰的時候，發送端確保收到的是預先要發送的，而 不會被挾持。只要是發送密鑰，就有可能有被挾持的風險。 　　　　第二個是：非對稱加密的方式效率比較低，它處理起來更爲複雜，通訊過程當中使用就有必定的效率 問題而影響通訊速度 4.https的證書機制
　　 服務器將這份數字證書發送給客戶端，由於客戶端也承認證書機構，客戶端能夠經過數字證書中的數 字簽名來驗證公鑰的真僞，來確保服務器傳過來的公開密鑰是真實的。通常狀況下，證書的數字簽名是很難被僞造的，這取決於認證機構的公信力。一旦確認信息無誤以後，客戶端就會經過公鑰對報文進行加密發送，服務器接收到之後用本身的私鑰進行解密。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。