如何用Python 編寫知乎爬蟲？So easy!

時間 2021-07-10

原文原文鏈接

爬蟲的基本流程網絡爬蟲的基本工作流程如下：首先選取一部分精心挑選的種子 URL 將種子 URL 加入任務隊列從待抓取 URL 隊列中取出待抓取的 URL，解析 DNS，並且得到主機的 ip，並將 URL 對應的網頁下載下來，存儲進已下載網頁庫中。此外，將這些 URL 放進已抓取 URL 隊列。分析已抓取 URL 隊列中的 URL，分析其中的其他 URL，並且將 URL 放入待抓取 URL

>>阅读原文<<