用Python抓取網頁並解析

軟件版本html


python:2.7.12html5

網頁抓取庫python


網頁抓取庫爲requests,git

github地址爲:https://github.com/requests/requestsgithub

文檔地址爲:http://docs.python-requests.org/en/master/spa

安裝很簡單,直接使用pipcode

pip install requests

網頁解析庫xml


網頁解析庫使用beautifulsoup4,其支持多種html解析器,如html5lib,lxml,須要一併安裝,推薦使用lxml網頁解析器htm

安裝過程以下:blog

pip install beautifulsoup4
pip install lxml
pip install html5lib

使用方法:

soup = BeautifulSoup(html_content, "lxml", from_encoding="utf-8")

詳細使用方法見《Beautiful Soup 4.4.0 文檔》及他人博文《python:BeautifulSoup 模塊使用指南

相關文章
相關標籤/搜索