第一篇 Python與網絡爬蟲-認識爬蟲

時間 2019-12-01

標籤一篇 python 網絡爬蟲認識欄目 Python 简体版

原文原文鏈接

感謝您瀏覽本篇文章，內容都是本人在學習過程當中的筆記。但願能對讀者有點幫助。如您在閱讀的過程當中發現了錯誤或更好的建議，請您及時給我反饋，以保證內容的準確性和易讀性。html

1 概述數據庫

網絡爬蟲（又稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更常常的稱爲網頁追逐者），是一種按照必定的規則，自動地抓取萬維網信息的程序或者腳本。json

簡單來講，爬蟲就是一個模擬瀏覽器發起請求，而後將服務器響應的資源(html，json等等)進行有用信息的提取，而後保存起來的一個過程。瀏覽器

2 爬蟲原理服務器

簡單來講，爬蟲就是獲取網頁並提取和保存信息的自動化程序。網絡

由上圖可得，咱們的爬蟲程序其實就是由三個步驟組成：學習

獲取網頁url

獲取網頁，其實就是模擬瀏覽器訪問獲取網頁的源代碼。Python提供了不少類庫來實現這個操做，如urllib、requests等等。cdn
提取信息htm

提取信息，即從網頁源代碼中提取出有用數據。Python提供了不少類庫來實現這個操做，如re、xpath、bs4等等。
保存數據

保存數據，就是將咱們提取出來的有用信息進行持久化的操做。如保存爲txt、jpg等，也能夠保存到數據庫(MySQL、Redis等等)。

經過實現上面三個步驟，其實咱們就完成了咱們的一個簡單的爬蟲程序。這個爬蟲程序就能夠代替咱們去自動化的爬取一些有用信息了。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。