XPath 是一門在 XML 文檔中查找信息的語言。XPath 用來在 XML 文檔中對元素和屬性進行遍歷。app
1) 可在XML中查找信息
2) 支持HTML的查找
3) 經過元素和屬性進行導航函數
因爲XPath屬於lxml庫模塊,因此首先要安裝庫lxml編碼
pip install lxml
經常使用的表達式spa
謂語被嵌在方括號內,用來查找某個特定的節點或包含某個制定的值的節點3d
Xpath經過通配符來選取未知的XML元素code
使用「|」運算符能夠選取多個路徑xml
軸能夠定義相對於當前節點的節點集blog
使用功能函數可以更好的進行模糊搜索ip
代碼實例文檔
import requests from lxml import etree baidu=requests.get('http://www.baidu.com') #請求百度頁面 baidu.encoding=baidu.apparent_encoding #頁面編碼 tree=etree.HTML(baidu.text) #參數只能是str格式的 a_list=tree.xpath('//*[@id="u1"]/a') #獲取的結果爲列表形式,故需取其中一個 for a in a_list: print(a.text,a.xpath('./@href')[0]) #遍歷獲取每一個a標籤的文本及超連接地址