小白學 Python 爬蟲(1):開篇

人生苦短,我用 Pythonpython

引言

各位同窗你們好,很久不見(可能只有一兩天沒見:囧)~~~程序員

先講一件事情,昨天爲啥沒更新。web

emmmmmmmmm,固然是由於加班啦,快到年末了,公司項目比較忙,最近的更新頻率會有降低,請各位海涵。編程

廢話很少說,開始今天的正題,從題目你們應該已經猜到了,小編要開始更新一個新的系列《小白學 Python 爬蟲》,介於你們水平良莠不齊,建議沒有 Python 基礎第一次接觸的同窗先看下小編以前更新的《小白學 Python 系列》,大體瞭解下 Python 的語法規則以及一些基礎用法。微信

先本身吹一波水,這個系列小編計劃作成長期更新系列,目前 Python 爬蟲涉及到的第三方的類庫有些多,還會有不少有關 web 編程方面的基礎知識,因面向的羣體主要是小白,這些內容都須要一一介紹,這會是一個大的系列。額,遠超以前的 Python 基礎。網絡

額,忘了件事兒,再加一句題外話,最近公衆號後臺留言有點略多,不少同窗的問題來不及回覆就被留言衝的看不到了,這裏請你們有問題能夠添加小編的我的微信:allen_6174(放心加,這個是小編的我的生活微信號,和工做號是分開的)。ide

算了,順便再打個廣告吧:本爬蟲系列文章後續將於公衆號首發,我的博客站第二天同步,第三方博客平臺不按期同步,泥萌要不要關注我一下呢?學習

什麼是爬蟲?

不論是做爲程序員仍是小白,對爬蟲這個詞應該都不陌生,畢竟最近也發生了不少事情,不少人由於某些事情都進去了,具體狀況我就不提了,容易被和諧。有想知道的同窗能夠翻一翻我以前公衆號轉的一篇文章《只因寫了一段爬蟲,公司200多人被抓!》。最近的網絡報道此類的新聞還有不少。設計

在正式內容開始以前,提醒各位讀者敬畏法律,熱愛生活。3d

老規矩,先百度一波看看百度釋義:

網絡爬蟲(又稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更常常的稱爲網頁追逐者),是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。另一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

講點接地氣的就是咱們把平時使用的網絡當作是一張大蜘蛛網,每一個站點看作是這張網上面的一個一個的節點,爬蟲比如是一隻蜘蛛,在這張網上面按照必定的或者已經設計好的路線,找到目標節點獲取所需資源。

爲何使用爬蟲

平時咱們在上網的時候,看到一些感興趣的網絡資源,可使用複製黏貼的方式將這些資源下載回來,好比看知乎的時候,一些回答很精彩的高贊回答,數據量小的時候,咱們動動鼠標右鍵也就搞定了,可是若是這種數據量很是大,有時候能夠大到超出你的想像,再用鼠標右鍵複製黏貼就有些捉襟見肘了。

上圖是博主在用的鼠標,非廣告,型號我就不貼了。

這時,咱們就須要勤勞的爬蟲出馬了,爬蟲這種「生物」,能夠全天候24小時候不間斷工做,只需提供必要的網絡和電力,就能夠一直勤勞的工做下去,讓你解放雙手,再也無需人工使用 CV 大法了。

能夠看出,爬蟲很是適合幫咱們作兩類事情:

  • 大量數據的提取,在必定規則條件下。
  • 徹底自動化,無需人工過多幹預。

想像一下,當老闆讓你搜索某類信息時,寫一隻勤勞的小爬蟲,本身在旁邊泡上一杯清茶,拿起手機開始愉快的玩耍,時不時的看這隻爬蟲有沒有完成工做,這場景一下讓我想起了萬惡的資本家壓榨勞動力。

小結

本篇文章爲各位同窗介紹了爬蟲的基本概念,讓你們對爬蟲有一個大體的瞭解,以便後續章節的學習。開胃菜吃完了,下一節咱們就要開始吃大餐了喲,你準備好了嗎?

若是個人文章對您有幫助,請掃碼關注下做者的公衆號:獲取最新干貨推送:)
相關文章
相關標籤/搜索