基本小爬蟲程序

#!/usr/bin/python
import re
import urllib
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html
def getImg(html):
    reg = r"src=\"(.+\.jpg)\" pic_ext"
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 1
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,"%s.jpg" %x)
        print x
        x += 1
    return (x-1)
html = getHtml("http://tieba.baidu.com/p/2753105329")
print getImg(html)
相關文章
相關標籤/搜索