爬蟲隨筆 一

爬蟲的概念 爬蟲是模擬瀏覽器發送請求,獲取響應 爬蟲的分類 通用爬蟲 聚焦爬蟲 爬蟲的流程 url—>發送請求,獲取響應—>提取數據—>保存 發送請求,獲取響應—>提取url 通用搜索引擎的侷限性 通用搜索引擎所返回的網頁裏90%的內容無用。 圖片、音頻、視頻多媒體的內容通用搜索引擎無能爲力 不同用戶搜索的目的不全相同,但是返回內容相同 爬蟲要根據當前url地址對應的響應爲準 ,當前url地址的e
相關文章
相關標籤/搜索