python爬蟲——爬蟲簡介

時間 2019-11-13

標籤 python 爬蟲簡介欄目 Python 简体版

原文原文鏈接

1.什麼是爬蟲？html

網絡爬蟲（又被稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更常常的稱爲網頁追逐者），是一種按照必定的規則，自動地抓取萬維網信息的程序或者腳本。另一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。通俗的理解爲在網絡上爬行的一隻蜘蛛，互聯網就比做一張大網，而爬蟲即是在這張網上爬來爬去的蜘蛛咯，若是它遇到資源，那麼它就會抓取下來。想抓取什麼？這個由你來控制它咯。瀏覽器

好比它在抓取一個網頁，在這個網中他發現了一條道路，其實就是指向網頁的超連接，那麼它就能夠爬到另外一張網上來獲取數據。這樣，整個連在一塊兒的大網對這之蜘蛛來講觸手可及，分分鐘爬下來不是事兒。服務器

2.爬蟲操做過程網絡

用戶輸入網址——DNS服務器——服務器主機——向服務器發出請求——服務器解析請求——服務器發送給瀏覽器html、jss、js文件——瀏覽器解析url

3.urlspa

URL，即統一資源定位符，也就是咱們說的網址，統一資源定位符是對能夠從互聯網上獲得的資源的位置和訪問方法的一種簡潔的表示，是互聯網上標準資源的地址。互聯網上的每一個文件都有一個惟一的URL，它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。htm

在爬取數據時必需要獲取到url索引

三部分組成：資源

第一個時協議get

第二個是存有該資源的主機的IP地址

第三個是主機資源的具體文件名

相關文章

1. Python爬蟲——爬蟲簡介
2. python爬蟲整理——爬蟲簡介
3. Python爬蟲一：爬蟲簡介
4. Python爬蟲之（一）：爬蟲簡介
5. python進階——爬蟲（一）——爬蟲簡介
6. 爬蟲(一)：爬蟲簡介
7. Python爬蟲簡介
8. Python 爬蟲簡介
9. python爬蟲實例介紹-python爬蟲--爬蟲介紹
10. 爬蟲簡介
更多相關文章...
• Scala 簡介 - Scala教程
• AJAX 簡介 - PHP教程
• Github 簡明教程
• Java Agent入門實戰（一）-Instrumentation介紹與使用

相關標籤/搜索

爬蟲－反爬蟲

簡易Python爬蟲

python爬蟲-爬微博

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<