網絡爬蟲(1)--準備工做

       網絡爬蟲是根據必定的規則自動的對網絡信息進行抓取,爲了對爬蟲有更深的瞭解,學習爬蟲前有必要先了解一下一個網頁打開的完整過程,能夠參考http://blog.csdn.net/saiwaifeike/article/details/8789624html

            接下來就是須要安裝和了解經常使用的2個相關庫,一個是urllib ,另外一是 BeautifulSoup。urllib是Python自帶的標準庫,不須要另外安裝,而BeautifulSoup須要本身安裝,能夠經過pip或者easy_install來安裝。能夠直接命令行easy_install  BeautifulSoup安裝。
        urllib分爲幾個子模塊:urllib.request, urllib.parse, urllib.error。具體功能能夠從名字得出。其中使用最頻繁的是urllib.request中的urlopen,這個函數用來打開並獲取從網絡獲取的遠程對象。其餘函數參考 https://docs.python.org/3/library/urllib.html
        這兩個庫配合使用就已經能夠完成簡單的爬蟲任務了,咱們以打開一個簡單的網頁爲例:
http://www.heibanke.com/lesson/crawler_ex00/
    咱們用urlopen訪問這個網頁,而後用BeautifulSoup轉換成BeautifulSoup對象,最後輸出其中的<h1>標籤中的文本,代碼以下:
  
1 __author__ = 'f403'
2 #coding = utf-8
3 from urllib.request import urlopen
4 from bs4 import BeautifulSoup
5 html = urlopen("http://www.heibanke.com/lesson/crawler_ex00/")
6 bsobj = BeautifulSoup(html,"html.parser")
7 print(bsobj.h1)

 

運行腳本後輸出結果爲:
<h1>這裏是黑板客爬蟲闖關的第一關</h1>
 
 小結:
urlopen完成訪問遠程網站以及讀取的過程。
BeautifulSoup完成對html的轉換,轉換成BeautifulSoup結構:

 

 

相關文章
相關標籤/搜索