Python爬蟲——Xpath和lxml

時間 2019-11-17

標籤 python 爬蟲 xpath lxml 欄目 Python 简体版

原文原文鏈接

1. Xpath 基本語法

1.1什麼是Xpath

Xpath，全稱 XML Path Language，及XML路徑語言，是一門在XML文檔中查找信息的語言，最初是用來搜尋XML文檔的，可是它一樣適用於HTML文檔的搜索。html

1.2 經常使用規則

獲取文本node

表達式	描述
a/text()	獲取 a 下的文本
a//text()	獲取 a 下全部元素的文本
//a[text()='下一頁']	獲取文本爲下一頁的 a 元素

獲取屬性url

表達式	描述
nodename	選取此節點的全部子節點
/	從當前節點選取直接子節點
//	從當前節點選取子孫節點
.	選取當前節點
..	選取當前節點的父節點
@	選取屬性
*	匹配任何元素節點
@*	匹配任何屬性節點
node()	匹配任何類型的節點

1.3示例

路徑表達式	結果
/bookstore/book[1] （注意下標從1開始）	選取屬於 bookstore 子元素的第一個book元素
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素
/bookstore/book[last()-1]	選取屬於 bookstore 子元素的倒數第二個 book 元素
/bookstore/book[position()<3]	選取屬於 bookstore 子元素的最前面兩個 book 元素
//title[@lang]	選取全部擁有名爲 lang 的屬性的title元素
//title[@lang='eng']	選取全部 lang 屬性爲 eng 的 title 元素
/bookstore/book[price>35.00]	選取 bookstore 元素下全部 book 元素，它們的 price 元素值大於 35.00
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的全部 title 元素，且 price 元素的值大於35.00
/bookstore/*	選取 bookstore 的全部子元素
//*	選取文檔中的全部元素
//node()/meta[]/@*	選取 html 下面任意節點的 meta 節點的全部屬性
//title[@*]	選取全部帶有屬性的 title 元素
//book/title \| // book/price	選取 book 元素的全部 title 和 price 元素
//title \| //price	選取文檔中的全部 title 和 price 元素
//bookstore/book/title \| //price	選取屬於 bookstore 元素的 book 元素的全部 title 元素，以及文檔中全部的 price 元素

2. lxml的使用

2.1 使用注意點

lxml 可以修正 HTML 代碼，可是可能會改錯了，解決方法：spa
- 使用etree.tostring觀察修改以後的html的樣子，根據修改以後的html字符串寫xpath
提取頁面數據的思路code
- 先分組，取到一個包含分組標籤的列表
- 遍歷，取其中每一組進行數據的提取，不會形成數據的對應錯亂
lxml 可以接受bytes和str的字符串cdn

2.2 簡單示例

from lxml import etree

text = ''' <div> <ul> 
            <li class="item-1"><a href="link1.html">first item</a></li> 
            <li class="item-1"><a href="link2.html">second item</a></li> 
            <li class="item-inactive"><a href="link3.html">third item</a></li> 
            <li class="item-1"><a href="link4.html">fourth item</a></li> 
            <li class="item-0"><a href="link5.html">fifth item</a> 
            </ul> </div> '''

html = etree.HTML(text)

print(html) # <Element html at 0x1f1007c9d08>
print(etree.tostring(html).decode())

# 獲取 class 爲 item-1 li 下的 a 的 href
ret1 = html.xpath('//li[@class="item-1"]/a/@href')
print(ret1)

# 獲取 class 爲 item-1 li 下的文本
ret2 = html.xpath("//li[@class='item-1']/a/text()")
print(ret2)

# 把 url 和 文本組成字典
# 若是其中一個獲取失敗或者沒有數據，則url 和 title 就不是原來對應的結果
for i in ret1:
    item = {}
    item['url'] = i
    item['title'] = ret2[ret1.index(i)]
    print(item)

# 改進
ret3 = html.xpath('//li[@class="item-1"]')
for i in ret3:
    item = {}
    item['url'] = i.xpath('./a/@href')[0] if len(i.xpath('./a/@href')) else None  # ./a/@href 表示當前節點下的
    item['title'] = i.xpath('./a/text()')[0] if len(i.xpath('./a/text()')) else None
    print(item)
複製代碼

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。