•XPath 是一門語言正則表達式
•XPath能夠在XML文檔中查找信息瀏覽器
•XPath支持HTML網站
•XPath經過元素和屬性進行導航.net
•XPath能夠用來提取信息firefox
•XPath比正則表達式厲害插件
•XPath比正則表達式簡單xml
•安裝lxml庫ip
•from lxml import etree文檔
•Selector = etree.HTML(網頁源代碼)get
•Selector.xpath(一段神奇的符號)
//與安裝requests 相同,能夠經過pip安裝,也能夠直接下載後,放到Lib文件夾中
一、XPath與HTML結構
•樹狀結構
•逐層展開
•逐層定位
•尋找獨立節點
二、獲取網頁元素的XPath
手動分析法
瀏覽器分析法
//Firefox須要安裝插件
從firefox的官方網站上下載firebug和xpathchecker這兩個插件,安裝步驟安裝就能夠了。
firefox插件地址
https://addons.mozilla.org/en-US/firefox/addon/firepath/
和
https://addons.mozilla.org/en-US/firefox/addon/xpath-checker/
安裝好後,進入審查元素。到想看的地方右擊,會有ViewXPath
點擊就是XPath了
•//定位根節點
•/往下層尋找
•提取文本內容:/text()
•提取屬性內容: /@xxxx