GJM:用C#實現網絡爬蟲(一) [轉載]

    網絡爬蟲在信息檢索與處理中有很大的作用,是收集網絡信息的重要工具。 接下來就介紹一下爬蟲的簡單實現。 爬蟲的工作流程如下 爬蟲自指定的URL地址開始下載網絡資源,直到該地址和所有子地址的指定資源都下載完畢爲止。 下面開始逐步分析爬蟲的實現。   1. 待下載集合與已下載集合 爲了保存需要下載的URL,同時防止重複下載,我們需要分別用了兩個集合來存放將要下載的URL和已經下載的URL。 因爲
相關文章
相關標籤/搜索