感謝您瀏覽本篇文章,內容都是本人在學習過程當中的筆記。但願能對讀者有點幫助。如您在閱讀的過程當中發現了錯誤或更好的建議,請您及時給我反饋,以保證內容的準確性和易讀性。html
1 概述數據庫
網絡爬蟲(又稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更常常的稱爲網頁追逐者),是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。json
簡單來講,爬蟲就是一個模擬瀏覽器發起請求,而後將服務器響應的資源(html,json等等)進行有用信息的提取,而後保存起來的一個過程。瀏覽器
2 爬蟲原理服務器
簡單來講,爬蟲就是獲取網頁並提取和保存信息的自動化程序。 網絡
由上圖可得,咱們的爬蟲程序其實就是由三個步驟組成:學習
獲取網頁url
獲取網頁,其實就是模擬瀏覽器訪問獲取網頁的源代碼。Python提供了不少類庫來實現這個操做,如urllib、requests等等。cdn
提取信息htm
提取信息,即從網頁源代碼中提取出有用數據。Python提供了不少類庫來實現這個操做,如re、xpath、bs4等等。
保存數據
保存數據,就是將咱們提取出來的有用信息進行持久化的操做。如保存爲txt、jpg等,也能夠保存到數據庫(MySQL、Redis等等)。
經過實現上面三個步驟,其實咱們就完成了咱們的一個簡單的爬蟲程序。這個爬蟲程序就能夠代替咱們去自動化的爬取一些有用信息了。