python3爬取1000個百度百科頁面（一）

時間 2020-12-30

原文原文鏈接

一、基本概念爬蟲：一段自動抓取互聯網信息的程序二、簡單爬蟲架構１、URL管理器：管理已經爬取和未曾爬取的url，防止重複、循環抓取 python中set可以直接去除重複元素２、網頁下載器：將網頁下載到本地，urllib2,request, ３、網頁解析器：從網頁中提取有價值的數據的工具，可以解析網頁含有的url和數據，方式有

>>阅读原文<<