網絡爬蟲的原理圖

2.3.1知識概述 ① 指定一個種子url放入到隊列中 ② 從隊列中獲取某個URL ③ 使用HTTP協議發起網絡請求 ④ 在發起網絡請求的過程中,需要將域名轉化成IP地址,也就是域名解析 ⑤ 得到服務器的響應,此時是二進制的輸入流 ⑥ 將二進制的輸入流轉換成HTML文檔,並解析內容(我們要抓取的內容,比如標題)。 ⑦ 將解除出來的內容保持到數據庫 ⑧ 記錄當前URL,並標記爲已爬取,避免下次重複爬
相關文章
相關標籤/搜索