python爬蟲從入門到放棄(一)- 認識爬蟲

什麼是爬蟲

百度百科裏的解釋是這樣的:瀏覽器

網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更常常的稱爲網頁追逐者),是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。另一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。服務器

爬蟲就是一種能夠按照必定規律,自動抓取信息的程序或腳本。網絡

再簡單一點就是:智能獲取網頁中信息的工具。ide

爬蟲能夠幹什麼

「萬物皆可爬」工具

文本、音頻、視頻、圖片、、、、、等等.學習

爬蟲怎麼工做

咱們在瀏覽網頁的時候,有一個基本的流程以下:.net

用戶輸入網址 ,通過DNS服務器,找到服務器主機,向服務器發出一個請求,服務器通過解析以後,發送給用戶的瀏覽器 HTML、JS、CSS 等文件,而後瀏覽器解析出來將 HTML、JS、CSS 等文件中包含的信息彙總起來展現給用戶。code

PS:這裏的信息就能夠分爲有用信息和無用信息,若是你想爬取的是知乎上某電影的評論內容,那評論的文本對於你就是有用信息,而評論框的樣式等信息就對你是無用信息。視頻

OK,如今瞭解了瀏覽網頁的基本流程以後,能夠得出一個結論,用戶看到的網頁實質是由 HTML 代碼構成的。blog

那爬蟲爬取網頁信息實際上就是在HTML代碼中尋找有用信息,並獲取的過程。

爬蟲經過分析、篩選、過濾HTML代碼中的內容,來獲取咱們想要獲得的有用信息(文本、音頻、視頻、圖片、、、、、等等)。

URL的含義

URL,即統一資源定位符,也就是咱們說的網址,統一資源定位符是對能夠從互聯網上獲得的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每一個文件都有一個惟一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。

URL的格式由三部分組成:
①第一部分是協議(或稱爲服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括端口號)。
③第三部分是主機資源的具體地址,如目錄和文件名等。

爬蟲爬取數據時必需要有一個目標的URL才能夠獲取數據,所以,它是爬蟲獲取數據的基本依據,準確理解它的含義對爬蟲學習有很大幫助。

基本的爬蟲只是的入門就是這些了~

從入門到放棄


做者:Ghost9
來源:CSDN
原文:https://blog.csdn.net/Ghost
9/article/details/80240532

相關文章
相關標籤/搜索