爬蟲的基本流程

網絡爬蟲的基本工作流程如下: 首先選取一部分精心挑選的種子URL; 將這些URL放入待抓取URL隊列; 從待抓取URL隊列中取出待抓取在URL,解析DNS,並且得到主機 的 ip,並將 URL 對應的網⻚下載下來,存儲進已下載網⻚庫中。此 外,將 這些 URL 放進已抓取 URL 隊列。 分析已抓取URL隊列中的URL,分析其中的其他URL,並且將URL 放入 待抓取 URL 隊列,從而進入下一個
相關文章
相關標籤/搜索