使用lxml以前,咱們首先要會使用XPath。利用XPath,就能夠將html文檔當作xml文檔去進行處理解析了。html
XPath (XML Path Language) 是一門在 XML 文檔中查找信息的語言,可用來在 XML 文檔中對元素和屬性進行遍歷。瀏覽器
Chrome瀏覽器,能夠安裝Xpath Helper插件。若是從網上下載插件,獲得的文件以.crx結尾,不能直接添加到瀏覽器擴展程序裏,咱們須要將這個文件改成.zip結尾,而後新建一個文件夾,將.zip文件解壓到新建的文件夾內。經過瀏覽器的擴展程序-加載已解壓的擴展程序-選擇該文件夾就能夠安裝好插件了。工具
XPath使用路徑表達式來選取XML文檔中的節點或者節點集。節點是經過沿着路徑(path)或步(steps)來選取的。這些路徑表達式和咱們在常規的電腦文件系統中看到的表達式很是類似。性能
<?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book> <title lang="eng">Harry Potter</title> <price>29.99</price> </book> <book> <title lang="eng">Learning XML</title> <price>39.95</price> </book> </bookstore>
下面的例子中都使用這個文檔進行演示。開發工具
XPath 使用路徑表達式在 XML 文檔中選取節點。節點是經過沿着路徑或者 step 來選取的。spa
常見路徑表達式:插件
表達式 | 描述 |
節點名 | 必須是根節點,選取此節點的全部子節點。 |
/ | 從根節點選取。 |
// | 從匹配選擇的當前節點選擇文檔中的節點,而不考慮它們的位置。 |
. | 選取當前節點。 |
.. | 選取當前節點的父節點。 |
@ | 選取屬性。 |
示例:code
路徑表達式 | 結果 |
bookstore | 選取 bookstore 元素的全部子節點。 |
/bookstore | 選取根元素 bookstore。xml 註釋:假如路徑起始於正斜槓( / ),則此路徑始終表明到某元素的絕對路徑!htm |
bookstore/book | 選取屬於 bookstore 的子元素的全部 book 元素。 |
//book | 選取全部 book 子元素,而無論它們在文檔中的位置。 |
bookstore//book | 選擇屬於 bookstore 元素的後代的全部 book 元素,而無論它們位於 bookstore 之下的什麼位置。 |
//@lang | 選取名爲 lang 的全部屬性。 |
謂語用來查找某個特定的節點或者包含某個指定的值的節點,被嵌在方括號中。
示例:
路徑表達式 | 結果 |
/bookstore/book[1] | 選取屬於 bookstore 子元素的第一個 book 元素。 |
/bookstore/book[last()] | 選取屬於 bookstore 子元素的最後一個 book 元素。 |
/bookstore/book[last()-1] | 選取屬於 bookstore 子元素的倒數第二個 book 元素。 |
/bookstore/book[position()<3] | 選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。 |
//title[@lang] | 選取全部擁有名爲 lang 的屬性的 title 元素。 |
//title[@lang='eng'] | 選取全部 title 元素,且這些元素擁有值爲 eng 的 lang 屬性。 |
/bookstore/book[price>35.00] | 選取 bookstore 元素的全部 book 元素,且其中的 price 元素的值須大於 35.00。 |
/bookstore/book[price>35.00]/title | 選取 bookstore 元素中的 book 元素的全部 title 元素,且其中的 price 元素的值須大於 35.00。 |
XPath 通配符可用來選取未知的 XML 元素和屬性。
通配符:
通配符 | 描述 |
* | 匹配任何節點。 |
@* | 匹配任何屬性 |
示例:
路徑表達式 | 結果 |
/bookstore/* | 選取 bookstore 元素的全部子元素。 |
//* | 選取文檔中的全部元素。 |
//title[@*] | 選取全部帶有屬性的 title 元素。 |
經過在路徑表達式中使用「|」運算符,您能夠選取若干個路徑
示例:
路徑表達式 | 結果 |
//book/title | //book/price | 選取 book 元素的全部 title 和 price 元素。 |
//title | //price | 選取文檔中的全部 title 和 price 元素。 |
/bookstore/book/title | //price | 選取屬於 bookstore 元素的 book 元素的全部 title 元素,以及文檔中全部的 price 元素。 |
下面列出了可用在 XPath 表達式中的運算符:
lxml 是 一個HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 數據。
lxml和正則同樣,也是用C實現的,是一款高性能的 Python HTML/XML 解析器,咱們能夠利用XPath語法,來快速的定位特定元素以及節點信息。
sudo pip3 install lxml
In [1]: from lxml import etree #導入etree In [2]: text = ''' ...: <div> ...: <ul> ...: <li class="item-0"><a href="link1.html">first item</a></li> ...: <li class="item-1"><a href="link2.html">second item</a></li> ...: <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li> ...: <li class="item-1"><a href="link4.html">fourth item</a></li> ...: <li class="item-0"><a href="link5.html">fifth item</a></li> ...: </ul> ...: </div> ...: ''' In [3]: html = etree.HTML(text) #讀取字符串 In [4]: html #返回html元素 Out[4]: <Element html at 0x7f3ad0bb8340> In [5]: etree.tostring(html)#序列化成字節類型,並自動添上了html標籤和body標籤 Out[5]: b'<html><body><div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a></li>\n </ul>\n</div>\n</body></html>' In [6]: html2 = etree.parse('./test.html')#從文件讀取 In [7]: html2 #返回元素樹 Out[7]: <lxml.etree._ElementTree at 0x7fc54d818d00> In [8]: etree.tostring(html2) Out[8]: b'<body>\n <div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a></li>\n </ul>\n </div>\n</body>' In [9]: element_list = html.xpath('//a')#調用元素的xpath方法,選取文檔中的全部a元素 In [10]: element_list #返回全部a元素組成的列表 Out[10]: [<Element a at 0x7fc54d849ec0>, <Element a at 0x7fc54d91b080>, <Element a at 0x7fc54d86fc80>, <Element a at 0x7fc54d878e40>, <Element a at 0x7fc54d878040>] In [11]: element_list[0].tag #元素tag屬性,返回標籤名 Out[11]: 'a' In [12]: element_list[0].text #元素text屬性,返回元素內容 Out[12]: 'first item' In [13]: attr_value_list = html.xpath('//a/@href') #調用元素的xpath方法,選取文檔中全部a元素的href屬性 In [14]: attr_value_list #返回href屬性值組成的列表 Out[14]: ['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']