lxml簡明教程

時間 2019-11-09

標籤 lxml 簡明教程简体版

原文原文鏈接

原文連接：http://yifei.me/note/464
最近要作下微信爬蟲，以前寫個小東西都是直接用正則提取數據就算了，若是須要更穩定的提取數據，仍是使用 xpath 定位元素比較可靠。週末沒事，從爬蟲的角度研究了一下 python xml 相關的庫。html

Python 標準庫中自帶了 xml 模塊，可是性能不夠好，並且缺少一些人性化的 API，相比之下，第三方庫 lxml 是用 Cython 實現的，並且增長了不少實用的功能，可謂爬蟲處理網頁數據的一件利器。lxml 大部分功能都存在 lxml.etree中，因此下文都假定已經執行了python

from lxml import etree

解析 XML 字符串

網頁下載下來之後是個字符串的形式，使用etree.fromstring(str)構造一個 etree._ElementTree對象，使用 etree.tostring(t)返回一個字符串數組

>>> xml_string = '<root><foo id="foo-id" class="foo zoo">Foo</foo><bar>中文</bar><baz></baz></root>'
>>> root = etree.fromstring(xml_string.encode('utf-8')) # 最好傳 byte string

>>> etree.tostring(root)
# 默認返回的是 byte string
b'<root>root content<foo id="foo-id" class="foo zoo">Foo</foo><bar>Bar</bar><baz/></root>'

>>> print(etree.tostring(root, pretty_print=True).decode('utf-8'))
#decode 一下變成 unicode
<root>
  <foo id="foo-id" class="foo zoo">Foo</foo>
  <bar>Bar</bar>
  <baz/> # 注意這裏沒有子節點的 baz 節點被變成了自閉和的標籤
</root>

>>> type(root)
<class 'lxml.etree._Element'>

# 能夠看出 tostring 返回的是一個_Element類型的對象，也就是整個 xml 樹的根節點

Element結構

etree._Element 是一個設計很精妙的結構，能夠把他當作一個對象訪問當前節點自身的文本節點，能夠把他當作一個數組，元素就是他的子節點，能夠把它當作一個字典，從而遍歷他的屬性微信

>>> root.text
'root content' # 注意只是 root 自身的文本，並不包含子節點的文本
>>> root.tag
'root'
>>> root[0].tag
'foo'
>>> foo = root[0]
>>> for attr, val in foo.items():
...     print(attr, val)
...
id foo-id
class foo zoo
>>> foo.get('id')
'foo-id'
>>> foo.attrib
{'class': 'foo zoo', 'id': 'foo-id'}

Element 和 ElementTree

xml 是一個樹形結構，lxml 使用etree._Element和 etree._ElementTree來分別表明樹中的節點和樹，etree.ELement和 etree.ElementTree 分別是兩個工廠函數函數

>>> t = root.getroottree()
# 得到一個節點對應的樹
<lxml.etree._ElementTree object at 0x107295308>

>>> t.getroot() == root
# 使用getroot 返回一個樹的根節點
True

>>> foo_tree = etree.ElementTree(root)
# 也能夠從一個節點構造一個樹，那麼這個節點就是這棵樹的根
>>> foo_tree.getroot().tag
'foo'

>>> foo.getroottree().tag
'root'
#注意，foo 這個節點的 roottree 仍然是以 root 節點爲根的

其餘方法如getparent()/getprevious()/getnext()都是顯而易見的，不贅述了性能

XPath

XPath 實在太強大了，在定位元素方面絕對是秒殺 CSS 選擇器。在 lxml 中，_Element和 _ElementTree 分別具備xpath 函數，二者的區別在於：spa

若是是相對路徑，_Element.xpath是以當前節點爲參考的，_ElementTree.xpath以根爲參考
若是是絕對路徑，_ElementTree.xpath是以當前節點的getroottree的根節點爲參考的設計

還有，若是 xpaht 表達式應該返回元素的話，老是返回一個數組，即便只有一個元素code

>>> foo.xpath('/root')[0].tag
'root'
>>> foo.xpath('.')[0].tag
'foo'
>>>
>>> t.xpath('/root')[0].tag
'root'
>>> t.xpath('.')[0].tag
'root'
>>>

lxml 還支持幾個函數 find/findall，他們使用 ElementPath，是一種相似 xpath 的語言，感受非常奇怪，lxml 的文檔描述他是 xpath 的一個子集，暫時不看了。xml

HTML

最後再來討論一下 HTML，以上的討論都是基於 xml 的，HTML 和 xml 仍是有些許不一樣的，lxml 也有一個專門的 html 模塊。
好比咱們解析 html 的話最好使用html.fromstring()，返回的是lxml.html.HtmlElement，具備上述的全部能力，同時可以更好地兼容 html。

>>> etree.fromstring('<meta charset=utf-8 />')
# 好比這句就會報錯，由於屬性值沒有用引號括起來
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "src/lxml/lxml.etree.pyx", line 3213, in lxml.etree.fromstring (src/lxml/lxml.etree.c:77737)
  File "src/lxml/parser.pxi", line 1830, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:116674)
  File "src/lxml/parser.pxi", line 1711, in lxml.etree._parseDoc (src/lxml/lxml.etree.c:115220)
  File "src/lxml/parser.pxi", line 1051, in lxml.etree._BaseParser._parseUnicodeDoc (src/lxml/lxml.etree.c:109345)
  File "src/lxml/parser.pxi", line 584, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:103584)
  File "src/lxml/parser.pxi", line 694, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:105238)
  File "src/lxml/parser.pxi", line 624, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:104147)
lxml.etree.XMLSyntaxError: AttValue: " or ' expected, line 1, column 15

>>> html.fromstring('<meta charset=utf-8>')
# 沒有問題

html.HtmlElement同時多了幾項功能

>>> doc = html.fromstring('<div><p>lorem <span>poium</span></p></div>')

>>> doc.text_content()
'lorem poium'

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。