網絡爬蟲（1）--準備工做

時間 2019-12-17

原文原文鏈接

網絡爬蟲是根據必定的規則自動的對網絡信息進行抓取，爲了對爬蟲有更深的瞭解，學習爬蟲前有必要先了解一下一個網頁打開的完整過程，能夠參考http://blog.csdn.net/saiwaifeike/article/details/8789624html

接下來就是須要安裝和了解經常使用的2個相關庫，一個是urllib ,另外一是 BeautifulSoup。urllib是Python自帶的標準庫，不須要另外安裝，而BeautifulSoup須要本身安裝，能夠經過pip或者easy_install來安裝。能夠直接命令行easy_install BeautifulSoup安裝。

urllib分爲幾個子模塊：urllib.request, urllib.parse, urllib.error。具體功能能夠從名字得出。其中使用最頻繁的是urllib.request中的urlopen，這個函數用來打開並獲取從網絡獲取的遠程對象。其餘函數參考 https://docs.python.org/3/library/urllib.html

這兩個庫配合使用就已經能夠完成簡單的爬蟲任務了，咱們以打開一個簡單的網頁爲例：

http://www.heibanke.com/lesson/crawler_ex00/

    咱們用urlopen訪問這個網頁，而後用BeautifulSoup轉換成BeautifulSoup對象，最後輸出其中的<h1>標籤中的文本，代碼以下：

1 __author__ = 'f403'
2 #coding = utf-8
3 from urllib.request import urlopen
4 from bs4 import BeautifulSoup
5 html = urlopen("http://www.heibanke.com/lesson/crawler_ex00/")
6 bsobj = BeautifulSoup(html,"html.parser")
7 print(bsobj.h1)