軟件版本html
python:2.7.12html5
網頁抓取庫python
網頁抓取庫爲requests,git
github地址爲:https://github.com/requests/requests,github
文檔地址爲:http://docs.python-requests.org/en/master/spa
安裝很簡單,直接使用pipcode
pip install requests
網頁解析庫xml
網頁解析庫使用beautifulsoup4,其支持多種html解析器,如html5lib,lxml,須要一併安裝,推薦使用lxml網頁解析器。htm
安裝過程以下:blog
pip install beautifulsoup4
pip install lxml
pip install html5lib
使用方法:
soup = BeautifulSoup(html_content, "lxml", from_encoding="utf-8")
詳細使用方法見《Beautiful Soup 4.4.0 文檔》及他人博文《python:BeautifulSoup 模塊使用指南》