爬取一個網站

若是一個頁面有10個連接,網站上有5個頁面深度(中等規模網站的主流深度),若是要採集整個網站,一共須要採集的網頁數量就是10^5,即100000個頁面,由於不多有網站會涉及到這麼多的網頁,由於有很大一部分是由於網頁重複的緣由,爲了不採集兩次,連接去重很重要html from urllib.request import urlopen from bs4 import BeautifulSoup im
相關文章
相關標籤/搜索