通用爬蟲實現的原理及過程

時間 2021-07-12

原文原文鏈接

獲取初始的URL。初始的URL地址可以人爲地指定，也可以由用戶指定的某個或某幾個初始爬取網頁決定。根據初始的URL爬取頁面並獲得新的URL。獲得初始的URL地址之後，先爬取當前URL地址中的網頁信息，然後解析網頁信息內容，將網頁存儲到原始數據庫中，並且在當前獲得的網頁信息裏發現新的URL地址，存放到一個URL隊列裏面。從URL隊列中讀取新的URL，從而獲得新的網頁信息，同時在新網頁中獲取新的U

>>阅读原文<<