python3簡單爬蟲實現代碼

分享一個python實現的網絡爬蟲代碼。轉自:http://www.cnblogs.com/yes123/p/3761388.html 
html

寫了個python3的。代碼很是簡單就不解釋了,直接貼代碼。python

#test rdp  import urllib.request import re #登陸用的賬戶信息 data={}
data['fromUrl']='' data['fromUrlTemp']='' data['loginId']='12345' data['password']='12345' user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #登陸地址 #url='http://192.168.1.111:8080/loginCheck' postdata = urllib.parse.urlencode(data) 
postdata = postdata.encode('utf-8')
headers = { 'User-Agent' : user_agent } #登陸  res = urllib.request.urlopen(url,postdata) #取得頁面html
strResult=(res.read().decode('utf-8')) #用正則表達式取出全部A標籤 p = re.compile(r'<a href="(.*?)".*?>(.*?)') for m in p.finditer(strResult): print (m.group(1))#group(1)是href裏面的內容,group(2)是a標籤裏的文字

關於cookie、異常等處理看了下,沒有花時間去處理,畢竟只是想經過寫爬蟲來學習python。
web

您可能感興趣的文章:

相關文章
相關標籤/搜索