爬取一個網站

時間 2020-07-16

原文原文鏈接

若是一個頁面有10個連接，網站上有5個頁面深度（中等規模網站的主流深度），若是要採集整個網站，一共須要採集的網頁數量就是10^5,即100000個頁面，由於不多有網站會涉及到這麼多的網頁，由於有很大一部分是由於網頁重複的緣由，爲了不採集兩次，連接去重很重要html from urllib.request import urlopen from bs4 import BeautifulSoup im

>>阅读原文<<