多線程爬蟲1

XPath的介紹與配置

•XPath 是一門語言正則表達式

•XPath能夠在XML文檔中查找信息瀏覽器

•XPath支持HTML網站

•XPath經過元素和屬性進行導航.net

•XPath能夠用來提取信息firefox

•XPath比正則表達式厲害插件

•XPath比正則表達式簡單xml

安裝使用XPath

•安裝lxml庫ip

•from lxml import etree文檔

•Selector = etree.HTML(網頁源代碼)get

•Selector.xpath(一段神奇的符號)

//與安裝requests 相同,能夠經過pip安裝,也能夠直接下載後,放到Lib文件夾中

XPath的使用

一、XPath與HTML結構

•樹狀結構

•逐層展開

•逐層定位

•尋找獨立節點

二、獲取網頁元素的XPath

手動分析法

瀏覽器分析法

//Firefox須要安裝插件

從firefox的官方網站上下載firebug和xpathchecker這兩個插件,安裝步驟安裝就能夠了。

firefox插件地址

https://addons.mozilla.org/en-US/firefox/addon/firepath/

https://addons.mozilla.org/en-US/firefox/addon/xpath-checker/

安裝好後,進入審查元素。到想看的地方右擊,會有ViewXPath

image

點擊就是XPath了

image

應用XPath提取內容

•//定位根節點

•/往下層尋找

•提取文本內容:/text()

•提取屬性內容: /@xxxx

相關文章
相關標籤/搜索