爬蟲的基本流程

時間 2021-01-04

原文原文鏈接

網絡爬蟲的基本工作流程如下: 首先選取一部分精心挑選的種子URL; 將這些URL放入待抓取URL隊列; 從待抓取URL隊列中取出待抓取在URL，解析DNS，並且得到主機的 ip，並將 URL 對應的網⻚下載下來，存儲進已下載網⻚庫中。此外，將這些 URL 放進已抓取 URL 隊列。分析已抓取URL隊列中的URL，分析其中的其他URL，並且將URL 放入待抓取 URL 隊列，從而進入下一個

>>阅读原文<<