爬蟲基本結構

爬蟲基本結構 爬蟲程序的工作是從一個種子鏈接的集合開始。把種子URL集合作爲參數傳遞給網絡爬 蟲。爬蟲先把這些初始的URL放入URL工作隊列(Todo隊列,又叫作Frontier),然後遍歷 所有工作隊列中的URL,下載網頁並把其中新發現的URL再次放入工作隊列。爲了判斷一個 URL是否已經遍歷過,把所有遍歷過的URL放入歷史表。 while (todo.size () > 0) { //如果 T
相關文章
相關標籤/搜索