1.什麼是爬蟲?html
網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更常常的稱爲網頁追逐者),是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。另一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。通俗的理解爲在網絡上爬行的一隻蜘蛛,互聯網就比做一張大網,而爬蟲即是在這張網上爬來爬去的蜘蛛咯,若是它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。瀏覽器
好比它在抓取一個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連接,那麼它就能夠爬到另外一張網上來獲取數據。這樣,整個連在一塊兒的大網對這之蜘蛛來講觸手可及,分分鐘爬下來不是事兒。服務器
2.爬蟲操做過程網絡
用戶輸入網址——DNS服務器——服務器主機——向服務器發出請求——服務器解析請求——服務器發送給瀏覽器html、jss、js文件——瀏覽器解析url
3.urlspa
URL,即統一資源定位符,也就是咱們說的網址,統一資源定位符是對能夠從互聯網上獲得的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每一個文件都有一個惟一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。htm
在爬取數據時必需要獲取到url索引
三部分組成:資源
第一個時協議get
第二個是存有該資源的主機的IP地址
第三個是主機資源的具體文件名