練手爬蟲用urllib模塊獲取

時間 2019-11-07

原文原文鏈接

練手爬蟲用urllib模塊獲取

有我的看一段python2的代碼有不少錯誤html

import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist 

html = getHtml("https://zwk365.com") //攢外快網
print getImg(html)

修改後python3的代碼

import re
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url) #獲取網站
    html = page.read() #內容讀取,返回的html是字節的格式
    return html

def getImg(html):
    # print(str(html,encoding='utf8'))   #內容以爬下來爲準而不是網站上的
    reg = 'data-original="(.*?)"'  #設置下內容的re格式
    imglist = re.findall(reg,str(html,encoding='utf8'),re.S)
    return imglist

html = getHtml("https://zwk365.com")
print(getImg(html))

相關標籤/搜索