在進行網頁抓取的時候,分析定位html節點是獲取抓取信息的關鍵,目前我用的是lxml模塊(用來分析XML文檔結構的,固然也能分析html結構), 利用其lxml.html的xpath對html進行分析,獲取抓取信息;如下是關於xpath的一些基本用法:html
在介紹XPath的匹配規則以前,咱們先來看一些有關XPath的基本概念。首先要說的是XPath數據類型。XPath可分爲四種數據類型:
節點集(node-set)
節點集是經過路徑匹配返回的符合條件的一組節點的集合。其它類型的數據不能轉換爲節點集。node
布爾值(boolean)
由函數或布爾表達式返回的條件匹配值,與通常語言中的布爾值相同,有true和false兩個值。布爾值能夠和數值類型、字符串類型相互轉換。編程
字符串(string)
字符串即包含一系列字符的集合,XPath中提供了一系列的字符串函數。字符串可與數值類型、布爾值類型的數據相互轉換。編程語言
數值(number)
在 XPath中數值爲浮點數,能夠是雙精度64位浮點數。另外包括一些數值的特殊描述,如非數值NaN(Not-a-Number)、正無窮大 infinity、負無窮大-infinity、正負0等等。number的整數值能夠經過函數取得,另外,數值也能夠和布爾類型、字符串類型相互轉換。函數
其 中後三種數據類型與其它編程語言中相應的數據類型差很少,只是第一種數據類型是XML文檔樹的特有產物。另外,因爲XPath包含的是對文檔結構樹的一系 列操做,所以搞清楚XPath節點類型也是很必要的。因爲XML文檔的邏輯結構,一個XML文件能夠包含元素、CDATA、註釋、處理指令等邏輯要素,其 中元素還能夠包含屬性,並能夠利用屬性來定義命名空間。相應地,在XPath中,將節點劃分爲七種節點類型:spa
根節點(Root Node)
根節點是一棵樹的最上層,根節點是惟一的。樹上其它全部元素節點都是它的子節點或後代節點。對根節點的處理機制與其它節點相同。在XSLT中對樹的匹配老是先從根節點開始。xml
元素節點(Element Nodes)
元素節點對應於文檔中的每個元素,一個元素節點的子節點能夠是元素節點、註釋節點、處理指令節點和文本節點。能夠爲元素節點定義一個惟一的標識id。
元素節點均可以有擴展名,它是由兩部分組成的:一部分是命名空間URI,另外一部分是本地的命名。htm
文本節點(Text Nodes)
文本節點包含了一組字符數據,即CDATA中包含的字符。任何一個文本節點都不會有緊鄰的兄弟文本節點,並且文本節點沒有擴展名。對象
屬性節點(Attribute Nodes)
每 一個元素節點有一個相關聯的屬性節點集合,元素是每一個屬性節點的父節點,但屬性節點卻不是其父元素的子節點。這就是說,經過查找元素的子節點能夠匹配出元 素的屬性節點,但反過來不成立,只是單向的。再有,元素的屬性節點沒有共享性,也就是說不一樣的元素節點不共有同一個屬性節點。
對缺省屬性的處理等同於定義了的屬性。若是一個屬性是在DTD聲明的,但聲明爲#IMPLIED,而該屬性沒有在元素中定義,則該元素的屬性節點集中不包含該屬性。
此外,與屬性相對應的屬性節點都沒有命名空間的聲明。命名空間屬性對應着另外一種類型的節點。ci
命名空間節點(Namespace Nodes)
每個元素節點都有一個相關的命名空間節點集。在XML文檔中,命名空間是經過保留屬性聲明的,所以,在XPath中,該類節點與屬性節點極爲類似,它們與父元素之間的關係是單向的,而且不具備共享性。
處理指令節點(Processing Instruction Nodes)
處理指令節點對應於XML文檔中的每一條處理指令。它也有擴展名,擴展名的本地命名指向處理對象,而命名空間部分爲空。
註釋節點(Comment Nodes)
註釋節點對應於文檔中的註釋。下面,咱們來構造一棵XML文檔樹:
<A id=」a1″>
<B id=」b1″>
<C id=」c1″>
<B name=」b」/>
<D id=」d1″/>
<E id=」e1″/>
<E id=」e2″/>
</C>
</B>
<B id=」b2″/>
<C id=」c2″>
<B/>
<D id=」d2″/>
<F/>
</C>
<E/>
</A>
如今,來實現一些利用Xpath使XML中節點匹配的基本方法。
路徑匹配
路徑匹配與文件路徑的表示相仿,比較好理解。有如下幾個符號:
符 號
含 義
舉 例
匹配結果
/
指示節點路徑
/A/C/D
節點」A」的子節點」C」的子節點」D」,即id值爲d2的D節點
/
根節點
//
全部路徑以」//」後指定的子路徑結尾的元素
//E
全部E元素,結果是全部三個E元素
//C/E
全部父節點爲C的E元素,結果是id值爲e1和e2的兩個E元素
*
路徑的通配符
/A/B/C/*
A元素→B元素→C元素下的全部子元素,即name值爲b的B元素、id值爲d1的D元素和id值爲e1和e2的兩個E元素
/*/*/D
上面有兩級節點的D元素,匹配結果是id值爲d2的D元素
//*
全部的元素
|
邏輯或
//B | //C
全部B元素和C元素
位置匹配
對於每個元素,它的各個子元素是有序的。如:
舉 例
含 義
匹配結果
/A/B/C[1]
A元素→B元素→C元素的第一個子元素
name值爲b的B元素
/A/B/C[last()]
A元素→B元素→C元素的最後一個子元素
id值爲e2的E元素
/A/B/C[position()>1]
A元素→B元素→C元素之下的位置號大於1的元素
id值爲d1的D元素和兩個具備id值的E元素
屬性及屬性值
在XPath中能夠利用屬性及屬性值來匹配元素,要注意的是,元素的屬性名前要有」@」前綴。例如:
舉 例
含 義
匹配結果
//B[@id]
全部具備屬性id的B元素
id值爲b1和b2的兩個B元素
//B[@*]
全部具備屬性的B元素
兩個具備id屬性的B元素和一個具備name屬性B元素
//B[not(@*)]
全部不具備屬性的B元素
A元素→C元素下的B元素
//B[@id="b1"]
id值爲b1的B元素
A元素下的B元素
親屬關係匹配
XML文檔可歸結爲樹型結構,所以任何一個節點都不是孤立的。一般咱們把節點之間的歸屬關係歸結爲一種親屬關係,如父親、孩子、祖先、後代、兄弟等等。在對元素進行匹配時,一樣能夠用到這些概念。例如:
舉 例
含 義
匹配結果
//E/parent::*
全部E節點的父節點元素
id值爲a1的A元素和id值爲c1的C元素
//F/ancestor::*
全部F元素的祖先節點元素
id值爲a1的A元素和id值爲c2的C元素
/A/child::*
A的子元素
id值爲b一、b2的B元素,id值爲c2的C元素,以及沒有任何屬性的E元素
/A/descendant::*
A的全部後代元素
除A元素之外的全部其它元素
//F/self::*
全部F的自身元素
F元素自己
//F/ancestor-or-self::*
全部F元素及它的祖先節點元素
F元素、F元素的父節點C元素和A元素
/A/C/descendant-or-self::*
全部A元素→C元素及它們的後代元素
id值爲c2的C元素、該元素的子元素B、D、F元素
/A/C/following-sibling::*
A元素→C元素的緊鄰的後序全部兄弟節點元素
沒有任何屬性的E元素
/A/C/preceding-sibling::*
A元素→C元素的緊鄰的前面全部兄弟節點元素
id值爲b1和b2的兩個B元素
/A/B/C/following::*
A元素→B元素→C元素的後序的全部元素
id爲b2的B元素、無屬性的C元素、無屬性的B元素、id爲d2的D元素、無屬性的F元素、無屬性的E元素。
/A/C/preceding::*
A元素→C元素的前面的全部元素
id爲b2的B元素、id爲e2的E元素、id爲e1的E元素、id爲d1的D元素、name爲b的B元素、id爲c1的C元素、id爲b1的B元素
條件匹配
條件匹配就是利用一些函數的運算結果的布爾值來匹配符合條件的節點。經常使用於條件匹配的函數有四大類:節點函數、字符串函數、數值函數、布爾函數。例如前面提到的last()、position()等等。這些功能函數能夠幫助咱們精確尋找須要的節點。
函數功能及做用 :
count()功能 : 統計計數,返回符合條件的節點的個數
number()功能 : 將屬性的值中的文本轉換爲數值
substring() 功能
語法:substring(value, start, length)
截取字符串
sum()功能 : 求和
這些功能只是XPath語法中的一部分,還有大量的功能函數沒有介紹,並且目前XPath的語法仍然在不斷髮展中。經過這些函數咱們能夠實現更加複雜的查詢和操做。
以上這些匹配方法中,用得最多的還要數路徑匹配。依靠給出相對於當前路徑的子路徑來定位節點的。
瞭解xpath了,如今就能夠分析html了,代碼舉例:
1 |
port lxml.html |
2 |
html = ''' |
數量: 1 |
''' doc = lxml.html.fromstring(html) numList = doc.xpath('//td[@style="padding-bottom: 5px;" and @nowrap="" and not(@align="right")]/text()')