通用爬蟲實現的原理及過程

獲取初始的URL。初始的URL地址可以人爲地指定,也可以由用戶指定的某個或某幾個初始爬取網頁決定。 根據初始的URL爬取頁面並獲得新的URL。獲得初始的URL地址之後,先爬取當前URL地址中的網頁信息,然後解析網頁信息內容,將網頁存儲到原始數據庫中,並且在當前獲得的網頁信息裏發現新的URL地址,存放到一個URL隊列裏面。 從URL隊列中讀取新的URL,從而獲得新的網頁信息,同時在新網頁中獲取新的U
相關文章
相關標籤/搜索