Python 爬蟲 —— 網頁內容解析（lxml）

時間 2019-12-02

標籤 python 爬蟲網頁內容解析 lxml 欄目 Python 简体版

原文原文鏈接

0. xpath 語法

from lxml import etree

etree 下的 HTML 對象，其構造函數接受 requests.request 的返回值對象：python

url = ...
user_agent = ...
headers = {'User-Agent' : user_agent}
req = requests.request(url=url, headers=headers)

html = etree.HTML(req.text)

starts-with
- //input[starts-with(@name, ‘name1’)]：查找name屬性中開始位置包含’name1’關鍵字的 input 元素
contains
- //input[contains(@name,’na’)] 查找name屬性中包含na關鍵字的input元素
text()
- 百度搜索
- xpath寫法爲 //a[text()=’百度搜索’] ，//a[contains(text(),」百度搜索」)]

相關標籤/搜索