爬蟲的原理及過程

通用網絡爬蟲 一、實現過程如下圖所示 二、實現原理如下 獲取初始的URL。初始的URL地址可以人爲的指定,也可以由用戶指定的某幾個或者某個初始爬取網頁決定。 根據初始的URL爬取頁面並獲得新的URL。爬取當前初始的URL地址中的網頁信息後,解析網頁信息內容將網頁信息內容存儲到原始數據庫中,並且在當前獲得的網頁信息裏面發現新的URL地址,存放到一個URL隊列裏面。 從URL隊列中讀取新的URL,從而
相關文章
相關標籤/搜索