爬蟲定位 1 xpath基本用法

時間 2019-12-19

原文原文鏈接

#!/usr/bin/env python
# -*- coding:utf-8 -*-
"""
1. 網頁的解析方式
1) xpath(簡單)
2) 正則(最難)
3) css(須要懂網頁的css)
4) bs4(比xpath難一點點)

2. xpath的基本用法
1) 環境準備:
    火狐瀏覽器(版本49.0如下)
    firebug
    firexpath
2) 基本操做
//元素標籤名
例如: //div,查找網頁內的全部div

//元素標籤名[@屬性名='具體內容']
例如: //div[@class='box'],查找class爲box的div

//元素標籤名[第幾個]
例如: //div[@class='box'][2],查找符合條件的第2個div

//元素1/元素2/元素3...
例如: //ul/li/div/a/img,查找ul下的li下的div下的a下的img標籤

//元素1/@屬性名
例如://ul/li/div/a/img/@src, 查找ul下的li下的div下的a下的img標籤的src屬性

//元素/text()
例如://a/text(), 獲取a標籤之間的文本(一級文本)

//元素//text()
例如://div[@class='box']//text(), 獲取class爲div下的全部文本

//元素[contains(@屬性名,'相關屬性值')]
例如://div[contains(@class,'zhangsan')] 查找class中包含zhangsan的div

//*[@屬性='值']
例如://*[@name='lisi']查找全部name爲lisi的元素
"""

相關標籤/搜索