爬蟲前奏

爬蟲的實際例子:

  1. 搜索引擎(百度、谷歌、360搜索等)。
  2. 伯樂在線。
  3. 惠惠購物助手。
  4. 數據分析與研究(數據冰山知乎專欄)。
  5. 搶票軟件等。

什麼是網絡爬蟲:

  1. 通俗理解:爬蟲是一個模擬人類請求網站行爲的程序。能夠自動請求網頁、並數據抓取下來,而後使用必定的規則提取有價值的數據。
  2. 專業介紹:百度百科

通用爬蟲和聚焦爬蟲:

  1. 通用爬蟲:通用爬蟲是搜索引擎抓取系統(百度、谷歌、搜狗等)的重要組成部分。主要是將互聯網上的網頁下載到本地,造成一個互聯網內容的鏡像備份。
  2. 聚焦爬蟲:是面向特定需求的一種網絡爬蟲程序,他與通用爬蟲的區別在於:聚焦爬蟲在實施網頁抓取的時候會對內容進行篩選和處理,儘可能保證只抓取與需求相關的網頁信息。

爲何用Python寫爬蟲程序:

  1. PHP:PHP是世界是最好的語言,但他天生不是作這個的,並且對多線程、異步支持不是很好,併發處理能力弱。爬蟲是工具性程序,對速度和效率要求比較高。
  2. Java:生態圈很完善,是Python爬蟲最大的競爭對手。可是Java語言自己很笨重,代碼量很大。重構成本比較高,任何修改會致使代碼大量改動。爬蟲常常要修改採集代碼。
  3. C/C++:運行效率是無敵的。可是學習和開發成本高。寫個小爬蟲程序可能要大半天時間。
  4. Python:語法優美、代碼簡潔、開發效率高、支持的模塊多。相關的HTTP請求模塊和HTML解析模塊很是豐富。還有Scrapy和Scrapy-redis框架讓咱們開發爬蟲變得異常簡單。

準備工具:

  1. Python3.6開發環境。
  2. Pycharm 2019 professional版。
  3. 虛擬環境。`virtualenv/virtualenvwrapper`。
相關文章
相關標籤/搜索