爬蟲基礎篇—之理論篇

1.網絡爬蟲又稱網絡蜘蛛、網絡機器人是一種按照一定的規則,自動抓取萬維網信息的程序或腳本 2.搜索引擎就是通用網絡爬蟲,如:google、百度(通用爬蟲) 通用爬蟲具有一定的侷限性 3.網絡爬蟲類型:通用網絡爬蟲、聚集網絡爬蟲、分佈式網絡爬 4.爬蟲主要步驟: 1.對爬取目標的 url 定義 2.對網頁數據分析與協議獲取對應 HTML 3.對頁面進行提取 HTML 頁面有價值的數據 通用爬蟲需要遵
相關文章
相關標籤/搜索