Python爬蟲學習：2、爬蟲的初步嘗試

時間 2019-11-30

原文原文鏈接

我使用的編輯器是IDLE，版本爲Python2.7.11，Windows平臺。html

本文是博主原創隨筆，轉載時請註明出處Maple2cat|Python爬蟲學習：2、爬蟲的初步嘗試socket

1.嘗試抓取指定網頁

1 #encoding:utf-8
2 import urllib2
3 
4 url = "http://www.cnblogs.com/"
5 data = urllib2.urlopen(url).read()
6 print data

我使用urllib2這個庫，有關這個庫的詳細解釋請看Python 標準庫 urllib2 的使用細節，上圖是博客園首頁的源碼，已經被扒下來了~~編輯器

爬取網頁源碼的核心兩行就是第4行和第5行。post

1 url = "http://www.cnblogs.com/"

這行代碼主要是指定了咱們須要爬取的網頁地址。學習

1 data = urllib2.urlopen(url).read()

這行代碼是調用urllib2庫裏面的urlopen方法，傳入一下url，就是上面咱們指定的網頁地址。並經過read()方法將網頁的源碼讀入到data中。urlopen通常接受三個參數，以下所示：url

1 urlopen(url, data, timeout)

第一個參數url，就是咱們本身指定的網頁地址，第二個參數data是訪問url時要傳送的數據，第三個參數timeout是設置超時時間。spa

第二個和第三個參數能夠不用設置，data默認設置爲None，timeout的默認設置爲socket._GLOBAL_DEFAULT_TIMEOUTcode

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。