網絡爬蟲是根據必定的規則自動的對網絡信息進行抓取,爲了對爬蟲有更深的瞭解,學習爬蟲前有必要先了解一下一個網頁打開的完整過程,能夠參考http://blog.csdn.net/saiwaifeike/article/details/8789624html
http://www.heibanke.com/lesson/crawler_ex00/
咱們用urlopen訪問這個網頁,而後用BeautifulSoup轉換成BeautifulSoup對象,最後輸出其中的<h1>標籤中的文本,代碼以下:
1 __author__ = 'f403' 2 #coding = utf-8 3 from urllib.request import urlopen 4 from bs4 import BeautifulSoup 5 html = urlopen("http://www.heibanke.com/lesson/crawler_ex00/") 6 bsobj = BeautifulSoup(html,"html.parser") 7 print(bsobj.h1)