1 import urllib2 2 url="https//www.baidu.com"; 3 response=urllib2.urlopen(url); 4 print response.read()
5 #************************************一樣上面網頁的代碼能夠經過request對象進行訪問************
request=urllib2.Request(url) response=urllib2.urlopen(request) print response.read()
1.上面顯示最簡單的網頁面的爬蟲,在實際的過程當中爬取的頁面有服務器的登陸和cookie等網頁的登陸:api
通常有POSt和GEt數據傳送方式:Get向服務器發送索取數據的請求直接暴露動態網頁上cookies同時GET傳送方式url連接字數限制,安全
POST,直接向服務器提出登陸請求:服務器
最重要的區別是GET方式是直接以連接形式訪問,連接中包含了全部的參數,固然若是包含了密碼的話是一種不安全的選擇,不過你能夠直觀地看到本身提交了什麼內容。POST則不會在網址上顯示全部的參數,不過若是你想直接查看提交了什麼就不太方便了,你們能夠酌情選擇。cookie
1 import urllib 2 import urllib2 3 from pip._vendor.requests.api import request 4 url="https://mail.qq.com/cgi-bin/loginpage?autologin=n&errtype=1&clientuin=2465923505¶m=&sp=&tfcont=22%20serialization%3A%3Aarchive%205%200%200%204%200%200%200%208%20authtype%201%204%209%20clientuin%2010%202465923505%206%20domain%206%20qq.com%202%20vm%203%20wsk&r=81a3f6c4a511bbe45ef3bcefd8e4e99e" 5 values={}; 6 values['username']="2465923505"; 7 values['password']="XXXXXXX" 8 9 data=urllib.urlencode(values) 10 request=urllib2.Request(url,data) 11 print request 12 response=urllib2.urlopen(request) 13 14 print response.read()