爬蟲之XPath

 

 XPath

XPath 是一門在 XML 文檔中查找信息的語言。XPath 用來在 XML 文檔中對元素和屬性進行遍歷。app

優勢:

1) 可在XML中查找信息 
2) 支持HTML的查找 
3) 經過元素和屬性進行導航函數

因爲XPath屬於lxml庫模塊,因此首先要安裝庫lxml編碼

pip install lxml

基礎語法

選取節點

  經常使用的表達式spa

2、謂語

謂語被嵌在方括號內,用來查找某個特定的節點或包含某個制定的值的節點3d

3、通配符

Xpath經過通配符來選取未知的XML元素code

 

4、取多個路徑

使用「|」運算符能夠選取多個路徑xml

5、Xpath軸

軸能夠定義相對於當前節點的節點集blog

6、功能函數    

使用功能函數可以更好的進行模糊搜索ip

代碼實例文檔

import requests
from lxml import etree

baidu=requests.get('http://www.baidu.com') #請求百度頁面
baidu.encoding=baidu.apparent_encoding #頁面編碼
tree=etree.HTML(baidu.text)  #參數只能是str格式的
a_list=tree.xpath('//*[@id="u1"]/a') #獲取的結果爲列表形式,故需取其中一個
for a in a_list:
    print(a.text,a.xpath('./@href')[0]) #遍歷獲取每一個a標籤的文本及超連接地址
相關文章
相關標籤/搜索