00_爬蟲基本原理

什麼是爬蟲 請求網站並提取數據的自動化程序 爬蟲分類 通用爬蟲:不分類,比如百度搜索引擎 聚焦爬蟲:是「⾯向特定主題」的⼀種⽹絡 爬⾍程序。它與我們通常所說的爬⾍(通⽤爬⾍)的區別之處就在於, 聚焦爬⾍在實施⽹⻚抓取時要進⾏主題篩選。它儘量保證只抓取與主題相關的⽹⻚信息 爬蟲的設計思路 首先確定需要爬取的網頁URL地址 通過HTTP/HTTPS協議來獲取對應的HTML頁面 提取HTML頁面裏有用的
相關文章
相關標籤/搜索