分享一個python實現的網絡爬蟲代碼。轉自:http://www.cnblogs.com/yes123/p/3761388.html
html
寫了個python3的。代碼很是簡單就不解釋了,直接貼代碼。python
#test rdp import urllib.request import re #登陸用的賬戶信息 data={} data['fromUrl']='' data['fromUrlTemp']='' data['loginId']='12345' data['password']='12345' user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #登陸地址 #url='http://192.168.1.111:8080/loginCheck' postdata = urllib.parse.urlencode(data) postdata = postdata.encode('utf-8') headers = { 'User-Agent' : user_agent } #登陸 res = urllib.request.urlopen(url,postdata) #取得頁面html strResult=(res.read().decode('utf-8')) #用正則表達式取出全部A標籤 p = re.compile(r'<a href="(.*?)".*?>(.*?)') for m in p.finditer(strResult): print (m.group(1))#group(1)是href裏面的內容,group(2)是a標籤裏的文字
關於cookie、異常等處理看了下,沒有花時間去處理,畢竟只是想經過寫爬蟲來學習python。
web