python爬蟲瞭解第一篇
爬蟲開始
爬蟲的實際例子
- 搜索引擎:關鍵字匹配提取,前提是要將全部的頁面爬一遍,而後存到本身的服務器,當用戶驚醒搜索的時候,根據本身的搜索內容,搜索引擎將用戶搜索信息返回給用戶。
- 伯樂在線: 文章的搬運工(
http://www.jobbole.com/
)
- 惠惠購物助手: 谷歌插件,爬到電商平臺的價格對比。
- 數據分析與研究: 某一行業的數據分析(基於實際的數據分析),數據冰山&輿情分析&數據可視化
- 搶票軟件:模擬人點擊的操做。
什麼是網絡爬蟲
- 通俗理解就是: 一個模擬人請求網站的程序,能夠自動請求網頁並將所定義需求的數據抓取下來,而後提取有價值的數據。
通用爬蟲和聚焦爬蟲
- 通用爬蟲:相似於搜索引擎抓取系統的重要組成部分。主要將網頁信息下載到搜索引擎存儲,造成一個互聯網內容的鏡像備份
- 聚焦爬蟲: 面向特定需求的一種爬蟲。會將爬去到的信息進行篩選和處理
準備工具
- Python3+
- Pycharm Professional
- 虛擬環境
歡迎關注本站公眾號,獲取更多信息