我使用的編輯器是IDLE,版本爲Python2.7.11,Windows平臺。html
本文是博主原創隨筆,轉載時請註明出處Maple2cat|Python爬蟲學習:2、爬蟲的初步嘗試socket
1 #encoding:utf-8 2 import urllib2 3 4 url = "http://www.cnblogs.com/" 5 data = urllib2.urlopen(url).read() 6 print data
我使用urllib2這個庫,有關這個庫的詳細解釋請看Python 標準庫 urllib2 的使用細節,上圖是博客園首頁的源碼,已經被扒下來了~~編輯器
爬取網頁源碼的核心兩行就是第4行和第5行。post
1 url = "http://www.cnblogs.com/"
這行代碼主要是指定了咱們須要爬取的網頁地址。學習
1 data = urllib2.urlopen(url).read()
這行代碼是調用urllib2庫裏面的urlopen方法,傳入一下url,就是上面咱們指定的網頁地址。並經過read()方法將網頁的源碼讀入到data中。urlopen通常接受三個參數,以下所示:url
1 urlopen(url, data, timeout)
第一個參數url,就是咱們本身指定的網頁地址,第二個參數data是訪問url時要傳送的數據,第三個參數timeout是設置超時時間。spa
第二個和第三個參數能夠不用設置,data默認設置爲None,timeout的默認設置爲socket._GLOBAL_DEFAULT_TIMEOUTcode