爬蟲 2 構建流程、urllib庫的介紹

時間 2021-07-12

原文原文鏈接

按照爬蟲的大致流程，程序的流程框架可以如下圖所示：先指定一個url；然後通過getData函數進行網頁爬取（一般是邊爬取邊解析，而不是爬取完之後再統一解析）；指定一個路徑，通過saveData函數將解析完畢的數據保存。 urllib包的介紹： 1 urllib.request對象： urllib.request.urlopen(URL字符串)：用來打開特定URL網頁，並獲取網頁的很多信息（

>>阅读原文<<