URL解析器urllib2

urllib2是Python的一個庫(不用下載,安裝,只須要使用時導入import urllib2)它提供了一系列用於操做URL的功能。html

 

urlopen

urllib2.urlopen能夠接受Request對象,urllib不能,本文采用urllib2python

urllib2.urlopen(url, *data, *timeout)緩存

urlopen方法是urllib2模塊最經常使用的方法,用於訪問發送某一請求。服務器

可選參數timeout用於設置超時時間,以秒爲單位。post

在data爲None時默認用GET方法:
url

response = urllib2.urlopen('http://www.baidu.com/')

html = response.read()

這樣就獲取了該網頁的htmlspa

在data不爲None時使用POST方法:code

parmas = urllib2.urlencode({'spam':1,'eggs':2,'bacon':0})

parmas = urllib2.urlencode(values)
response=urllib2.urlopen("http://python.org/query",parmas)

html = response.read()

urlopen返回對象提供方法:orm

-         read() , readline() ,readlines() , fileno() , close() :這些方法的使用方式與文件對象徹底同樣htm

-         info():返回一個httplib.HTTPMessage對象,表示遠程服務器返回的頭信息

-         getcode():返回Http狀態碼。若是是http請求,200請求成功完成;404網址未找到

-         geturl():返回請求的url

 
 

urlretrieve

urlretrieve方法將url定位到的html文件下載到你本地的硬盤中。若是不指定filename,則會存爲臨時文件。

urllib.urlretrieve(link,path)
urllib.urlcleanup()清除因爲urllib.urlretrieve()所產生的緩存
相關文章
相關標籤/搜索