Python爬蟲學習:2、爬蟲的初步嘗試

我使用的編輯器是IDLE,版本爲Python2.7.11,Windows平臺。html

本文是博主原創隨筆,轉載時請註明出處Maple2cat|Python爬蟲學習:2、爬蟲的初步嘗試socket

1.嘗試抓取指定網頁

1 #encoding:utf-8
2 import urllib2
3 
4 url = "http://www.cnblogs.com/"
5 data = urllib2.urlopen(url).read()
6 print data

我使用urllib2這個庫,有關這個庫的詳細解釋請看Python 標準庫 urllib2 的使用細節,上圖是博客園首頁的源碼,已經被扒下來了~~編輯器

 

2.分析上述代碼的具體做用

爬取網頁源碼的核心兩行就是第4行和第5行。post

1 url = "http://www.cnblogs.com/"

這行代碼主要是指定了咱們須要爬取的網頁地址。學習

1 data = urllib2.urlopen(url).read()

這行代碼是調用urllib2庫裏面的urlopen方法,傳入一下url,就是上面咱們指定的網頁地址。並經過read()方法將網頁的源碼讀入到data中。urlopen通常接受三個參數,以下所示:url

1 urlopen(url, data, timeout)

第一個參數url,就是咱們本身指定的網頁地址,第二個參數data是訪問url時要傳送的數據,第三個參數timeout是設置超時時間。spa

第二個和第三個參數能夠不用設置,data默認設置爲None,timeout的默認設置爲socket._GLOBAL_DEFAULT_TIMEOUTcode

相關文章
相關標籤/搜索