爬蟲初階(一)—— 爬蟲概念與HTTP

1. 爬蟲基礎 1.1 爬蟲的概念 爬蟲經過模擬客戶端(瀏覽器)發送請求,獲取響應,是一種按照必定規則,自動地抓取互聯網信息的程序。 1.2 爬蟲的分類 根據使用場景,爬蟲一般分爲兩類:web 通用爬蟲 – 搜索引擎的爬蟲,面對整個互聯網上全部的網站。 聚焦爬蟲 – 針對特定網站的爬蟲。 1.3 聚焦爬蟲的流程 1.4 數據的位置 通常須要爬取的數據在能夠在如下位置找到:ajax 當前url地址對
相關文章
相關標籤/搜索