爬蟲基礎入門（一）

時間 2019-12-13

原文原文鏈接

1 URL含義
URL的格式由三部分組成：
①第一部分是協議(或稱爲服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括端口號)。
③第三部分是主機資源的具體地址，如目錄和文件名等。
2 分析扒網頁的方法

response = urllib2.urlopen("http://www.baidu.com")

首先調用的是urllib2庫裏面的urlopen方法，傳入一個URL，這個網址是百度首頁，協議是HTTP協議，固然你也能夠把HTTP換作FTP,FILE,HTTPS 等等，只是表明了一種訪問控制協議，urlopen通常接受三個參數，它的參數以下：html

urlopen(url, data, timeout)

第一個參數url即爲URL，第二個參數data是訪問URL時要傳送的數據，第三個timeout是設置超時時間。
第二三個參數是能夠不傳送的，data默認爲空None，timeout默認爲 socket._GLOBAL_DEFAULT_TIMEOUT
第一個參數URL是必需要傳送的，在這個例子裏面咱們傳送了百度的URL，執行urlopen方法以後，返回一個response對象，返回信息便保存在這裏面。socket

print response.read()

response對象有一個read方法，能夠返回獲取到的網頁內容。記得必定要加read方法，不然它不出來內容咯！post

3 構造Requset

import urllib2
request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()

4 POST和GET數據傳送

Urllib庫的高級用法ui

1 設置Headers
2 Proxy（代理）的設置
3 Timeout 設置
4 使用 HTTP 的 PUT 和 DELETE 方法
http協議有六種請求方法，get,head,put,delete,post,options
5 使用DebugLogurl

來自

Python爬蟲入門四之Urllib庫的高級用法代理

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

爬蟲基礎入門（一）

來自