爬蟲的基礎知識

爬蟲的概念 ​ 網絡爬蟲(網頁蜘蛛,網絡機器人)就是模擬瀏覽器發送網絡請求,接收響應,一種按照一定的規則自動的爬取互聯網信息的程序. ​ 理論上來說,只要瀏覽器能做的事情,原則上爬蟲都能爬取 爬蟲分類 通用爬蟲 搜索引擎爬蟲,面向整個互聯網上所有的網站 聚焦爬蟲 針對特定的網站爬蟲 ​ ROBOTS協議 ​ 網站通過Robots協議高速搜索引擎哪些頁面可以爬取,哪些頁面不能抓取(只是道德層面的約束
相關文章
相關標籤/搜索