python爬蟲瞭解第一篇

爬蟲開始

爬蟲的實際例子

  • 搜索引擎:關鍵字匹配提取,前提是要將全部的頁面爬一遍,而後存到本身的服務器,當用戶驚醒搜索的時候,根據本身的搜索內容,搜索引擎將用戶搜索信息返回給用戶。
  • 伯樂在線: 文章的搬運工(http://www.jobbole.com/
  • 惠惠購物助手: 谷歌插件,爬到電商平臺的價格對比。
  • 數據分析與研究: 某一行業的數據分析(基於實際的數據分析),數據冰山&輿情分析&數據可視化
  • 搶票軟件:模擬人點擊的操做。

什麼是網絡爬蟲

  • 通俗理解就是: 一個模擬人請求網站的程序,能夠自動請求網頁並將所定義需求的數據抓取下來,而後提取有價值的數據。

通用爬蟲和聚焦爬蟲

  • 通用爬蟲:相似於搜索引擎抓取系統的重要組成部分。主要將網頁信息下載到搜索引擎存儲,造成一個互聯網內容的鏡像備份
  • 聚焦爬蟲: 面向特定需求的一種爬蟲。會將爬去到的信息進行篩選和處理

準備工具

  • Python3+
  • Pycharm Professional
  • 虛擬環境
相關文章
相關標籤/搜索