爬蟲基礎入門(一)

  • 1 URL含義
    URL的格式由三部分組成:
    ①第一部分是協議(或稱爲服務方式)。
    ②第二部分是存有該資源的主機IP地址(有時也包括端口號)。
    ③第三部分是主機資源的具體地址,如目錄和文件名等。
  • 2 分析扒網頁的方法
response = urllib2.urlopen("http://www.baidu.com")

首先調用的是urllib2庫裏面的urlopen方法,傳入一個URL,這個網址是百度首頁,協議是HTTP協議,固然你也能夠把HTTP換作FTP,FILE,HTTPS 等等,只是表明了一種訪問控制協議,urlopen通常接受三個參數,它的參數以下:html

urlopen(url, data, timeout)

第一個參數url即爲URL,第二個參數data是訪問URL時要傳送的數據,第三個timeout是設置超時時間。
第二三個參數是能夠不傳送的,data默認爲空None,timeout默認爲 socket._GLOBAL_DEFAULT_TIMEOUT
第一個參數URL是必需要傳送的,在這個例子裏面咱們傳送了百度的URL,執行urlopen方法以後,返回一個response對象,返回信息便保存在這裏面。socket

print response.read()

response對象有一個read方法,能夠返回獲取到的網頁內容。記得必定要加read方法,不然它不出來內容咯!post

  • 3 構造Requset
import urllib2
request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()
  • 4 POST和GET數據傳送

Urllib庫的高級用法ui

  • 1 設置Headers
  • 2 Proxy(代理)的設置
  • 3 Timeout 設置
  • 4 使用 HTTP 的 PUT 和 DELETE 方法
    http協議有六種請求方法,get,head,put,delete,post,options
  • 5 使用DebugLogurl

    來自

    Python爬蟲入門四之Urllib庫的高級用法代理

相關文章
相關標籤/搜索