python-10：將網頁源碼爬取下來

時間 2019-11-10

原文原文鏈接

第一步咱們先來爬取糗事百科的網頁源碼
糗事百科的網址是：http://www.qiushibaike.com/ 這也是咱們等下要傳入的url
其實前面的最簡單的爬蟲程序就是爬取網頁的源代碼，如今咱們試着用它來爬取糗事百科的源碼，看看能不能成功
python

#!/usr/bin/env python
# -*- coding:UTF-8 -*-
__author__ = '217小月月坑'

import urllib2

url = 'http://www.qiushibaike.com/'
request = urllib2.Request(url)

response = urllib2.urlopen(request)
print response.read()

額......結果出錯了，媽蛋，真是出師不利，那好吧，既然如此那咱們就先來來認識錯誤

程序運行出錯是很正常的，出的錯誤越多，咱們就越可以在實踐中積累知識，因此不要懼怕錯誤。有的錯誤很明顯，一檢查程序就知道了，有的錯誤很隱蔽，可能要改幾天結果發現倒是多了一個空格或者是少了一個符號，因此咱們要掌握一些方法來檢查錯誤

不單單是python，其餘的編程語言在程序出錯時會將錯誤信息輸出，這個信息包括錯誤的類型，錯誤的代碼在第幾行，甚至是哪一個變量出錯了，因此咱們要學會經過查找出錯信息來分析錯誤緣由而且解決錯誤，固然，爲了方便，咱們還須要一個可以顯示行號的編輯器
如今咱們來看看上面這段程序報了什麼錯誤
編程

urllib2.HTTPError: HTTP Error 502: Server Hangup 就是咱們的錯誤信息
實際上找到了這個錯誤信息並無什麼卵用，反正我是看不懂，因此我選擇百度
百度查到了不少條匹配的信息，可是不要急，多看幾條，會讓你對這個錯誤有更深的認識或者能看到一些相關的信息，拓寬你的知識面

"多是那個網站阻止了這類的訪問，只要在請求中加上假裝成瀏覽器的header就能夠了"

好了，錯誤的緣由和解決方法已經找到了，那麼問題來了
1. 什麼是瀏覽器的header
2. 怎麼在python代碼裏面假裝header瀏覽器