測試之道--網絡爬蟲系列2(爬蟲技術及原理)

通用網絡爬蟲原理 1)獲取初始的URL:可以用戶人爲指定一個或者多個URL 2)根據初始的URL爬取頁面並獲得新的URL:首先爬取初始URL網頁,將網頁存儲到原始數據庫的同時獲取網頁中的新的URL地址,將新的URL存放到待爬取URL列表中,並將已經爬取的URL放到已爬取URL列表中,目的是用於去重及判斷爬取的進程。 3)重複步驟2直至滿足爬蟲系統設置的停止條件時,停止爬取。 聚焦網絡爬蟲原理 1)
相關文章
相關標籤/搜索