七日Python之路--第三天

    以前因爲看基礎看的覺着沒意思,纔去提早看一下Django的。如今忽然不知到該幹啥了。html

    無論什麼語言,官方文檔是必須的。so...........python

    莫名浮躁,實在看不下去........   待會研究 re 吧。雖然以前研究過,但許久不使用,忘的差很少了....Orz.linux

                                                                          --2014.7.23 18:37正則表達式


正則表達式:django

    1.掌握正則表達式的規則編程

        正則表達式是一種小型,高度專業化的編程語言,內嵌Python中,經過re模塊實現。小程序

        正則表達式模式被編譯成一系列字節碼,由用C編寫的匹配引擎執行。編程語言

        字符匹配:普通字符,元字符
編碼

        [] : 經常使用來指定一個字符集:[abc],[a-z]。補集匹配不在區間範圍內的字符:[^5]url

        ^ : 匹配行首。除非設置MULTILINE

        $ : 匹配行尾,行尾被定義爲字符串尾,或者一個換行字符後面的任何位置。


小程序:自動下載百度貼吧的圖片

    因爲觀看網易雲課堂,遂轉向了Win。win下面控制檯編碼爲ascii,中文偶爾亂碼。因此所有換成英文。

#輸入百度貼吧地址,及當期目錄將要新建的文件夾名稱。便可下載並存入新建文件夾中。
#算是本身這幾天來寫的第一個小程序吧。不過程序還存在幾個bug
#好比:url地址不合法,同名的文件夾已經存在等問題沒有處理
#其中只有:url地址匹配用到了一點re的內容。
#說實話,Python真是簡單,你所想要的功能基本都有了!!!
#還小有成就感呢,(*^__^*) 嘻嘻……

#coding:utf-8

import urllib
import re
import os

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(http://imgsrc.baidu.com.*?\.jpg)"'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist

def main():
    url = r'http://tieba.baidu.com/p/3179623479/'
    url = str(raw_input('input the url : '))
    forder = r'test'
    forder = str(raw_input('input the forder name : '))
    os.mkdir(forder)
    html = getHtml(url)
    count = 0
    for imgurl in getImg(html):
        count += 1
        print imgurl
        urllib.urlretrieve(imgurl,'%s/%s.jpg' % (forder,count))
    print 'total saved : %s pictures to : %s ' % (forder,count)

if __name__ == '__main__':
    main()

    言歸正傳,下面接着講正則表達式的內容...

                                                                                    --2014.7.24 1:43


        IBM上一個Django簡要內容:http://www.ibm.com/developerworks/cn/linux/l-django/

相關文章
相關標籤/搜索