爬蟲 2 構建流程、urllib庫的介紹

按照爬蟲的大致流程,程序的流程框架可以如下圖所示: 先指定一個url; 然後通過getData函數進行網頁爬取(一般是邊爬取邊解析,而不是爬取完之後再統一解析); 指定一個路徑,通過saveData函數將解析完畢的數據保存。 urllib包的介紹: 1 urllib.request對象: urllib.request.urlopen(URL字符串): 用來打開特定URL網頁,並獲取網頁的很多信息(
相關文章
相關標籤/搜索