python3爬取1000個百度百科頁面(一)

一、基本概念        爬蟲:一段自動抓取互聯網信息的程序 二、簡單爬蟲架構         1、URL管理器:管理已經爬取和未曾爬取的url,防止重複、循環抓取        python中set可以直接去除重複元素            2、網頁下載器:將網頁下載到本地,urllib2,request, 3、網頁解析器:從網頁中提取有價值的數據的工具,可以解析網頁含有的url和數據,方式有
相關文章
相關標籤/搜索