第一篇 Python與網絡爬蟲-認識爬蟲

感謝您瀏覽本篇文章,內容都是本人在學習過程當中的筆記。但願能對讀者有點幫助。如您在閱讀的過程當中發現了錯誤或更好的建議,請您及時給我反饋,以保證內容的準確性和易讀性。html

1 概述數據庫

網絡爬蟲(又稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更常常的稱爲網頁追逐者),是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。json

簡單來講,爬蟲就是一個模擬瀏覽器發起請求,而後將服務器響應的資源(html,json等等)進行有用信息的提取,而後保存起來的一個過程。瀏覽器


2 爬蟲原理服務器

簡單來講,爬蟲就是獲取網頁並提取和保存信息的自動化程序。 網絡

由上圖可得,咱們的爬蟲程序其實就是由三個步驟組成:學習

  1. 獲取網頁url

    獲取網頁,其實就是模擬瀏覽器訪問獲取網頁的源代碼。Python提供了不少類庫來實現這個操做,如urllib、requests等等。cdn

  2. 提取信息htm

    提取信息,即從網頁源代碼中提取出有用數據。Python提供了不少類庫來實現這個操做,如re、xpath、bs4等等。

  3. 保存數據

    保存數據,就是將咱們提取出來的有用信息進行持久化的操做。如保存爲txt、jpg等,也能夠保存到數據庫(MySQL、Redis等等)。

    經過實現上面三個步驟,其實咱們就完成了咱們的一個簡單的爬蟲程序。這個爬蟲程序就能夠代替咱們去自動化的爬取一些有用信息了。

相關文章
相關標籤/搜索