python-10:將網頁源碼爬取下來

第一步咱們先來爬取糗事百科的網頁源碼
糗事百科的網址是:http://www.qiushibaike.com/    這也是咱們等下要傳入的url
其實前面的最簡單的爬蟲程序就是爬取網頁的源代碼,如今咱們試着用它來爬取糗事百科的源碼,看看能不能成功
python

#!/usr/bin/env python
# -*- coding:UTF-8 -*-
__author__ = '217小月月坑'

import urllib2

url = 'http://www.qiushibaike.com/'
request = urllib2.Request(url)

response = urllib2.urlopen(request)
print response.read()

額......結果出錯了,媽蛋,真是出師不利,那好吧,既然如此那咱們就先來來認識錯誤

程序運行出錯是很正常的,出的錯誤越多,咱們就越可以在實踐中積累知識,因此不要懼怕錯誤。有的錯誤很明顯,一檢查程序就知道了,有的錯誤很隱蔽,可能要改幾天結果發現倒是多了一個空格或者是少了一個符號,因此咱們要掌握一些方法來檢查錯誤

不單單是python,其餘的編程語言在程序出錯時會將錯誤信息輸出,這個信息包括錯誤的類型,錯誤的代碼在第幾行,甚至是哪一個變量出錯了,因此咱們要學會經過查找出錯信息來分析錯誤緣由而且解決錯誤,固然,爲了方便,咱們還須要一個可以顯示行號的編輯器
如今咱們來看看上面這段程序報了什麼錯誤
編程


urllib2.HTTPError: HTTP Error 502: Server Hangup 就是咱們的錯誤信息
實際上找到了這個錯誤信息並無什麼卵用,反正我是看不懂,因此我選擇百度
百度查到了不少條匹配的信息,可是不要急,多看幾條,會讓你對這個錯誤有更深的認識或者能看到一些相關的信息,拓寬你的知識面

"多是那個網站阻止了這類的訪問,只要在請求中加上假裝成瀏覽器的header就能夠了"

好了,錯誤的緣由和解決方法已經找到了,那麼問題來了
1. 什麼是瀏覽器的header
2. 怎麼在python代碼裏面假裝header
瀏覽器

相關文章
相關標籤/搜索