以前咱們從網頁中提取重要信息主要是經過本身編寫正則表達式完成的,可是若是你以爲正則表達式很好寫的話,那你估計不是地球人了,並且很容易出問題。下邊要介紹的Beautiful Soup就能夠幫你簡化這些操做,更加方便的提取網頁中信息。python
Beautiful Soup 3 目前已經中止開發,官方推薦在如今的項目中使用Beautiful Soup 4正則表達式
Beautiful Soup是有中文文檔的,裏邊有詳細的介紹,文檔地址是: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/centos
1. 安裝centos7
我是在centos7環境中,因此安裝過程比較簡單,直接能夠經過yum來安裝:spa
sudo yum install python-beautifulsoup4
若是你安裝了pip,也能夠經過它來下載:code
sudo pip install beautifulsoup4
2.快速上手blog
其實其中文文檔已經很是nice了。ip
點擊這裏查看: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/開發