爬蟲之XPath

時間 2019-11-12

原文原文鏈接

XPath

XPath 是一門在 XML 文檔中查找信息的語言。XPath 用來在 XML 文檔中對元素和屬性進行遍歷。app

優勢:

1）可在XML中查找信息
2）支持HTML的查找
3）經過元素和屬性進行導航函數

因爲XPath屬於lxml庫模塊，因此首先要安裝庫lxml編碼

pip install lxml

基礎語法

選取節點

　　經常使用的表達式spa

2、謂語

謂語被嵌在方括號內，用來查找某個特定的節點或包含某個制定的值的節點3d

3、通配符

Xpath經過通配符來選取未知的XML元素code

4、取多個路徑

使用「|」運算符能夠選取多個路徑xml

5、Xpath軸

軸能夠定義相對於當前節點的節點集blog

6、功能函數

使用功能函數可以更好的進行模糊搜索ip

代碼實例文檔

import requests
from lxml import etree

baidu=requests.get('http://www.baidu.com') #請求百度頁面
baidu.encoding=baidu.apparent_encoding #頁面編碼
tree=etree.HTML(baidu.text)  #參數只能是str格式的
a_list=tree.xpath('//*[@id="u1"]/a') #獲取的結果爲列表形式,故需取其中一個
for a in a_list:
    print(a.text,a.xpath('./@href')[0]) #遍歷獲取每一個a標籤的文本及超連接地址

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。