03 數據解析-Xpath

時間 2019-11-17

標籤數據解析 xpath 简体版

原文原文鏈接

Xpath解析

XPath在Python的爬蟲學習中，起着舉足輕重的地位，對比正則表達式 re二者能夠完成一樣的工做，實現的功能也差很少，但XPath明顯比re具備優點，在網頁分析上使re退居二線。html

Xpath使用

1.下載：pip install lxml
2.導包：from lxml import etree

3.將html文檔或者xml文檔轉換成一個etree對象，而後調用對象中的方法查找指定的節點

　　3.1 本地文件：tree = etree.parse(文件名)
                tree.xpath("xpath表達式")

　　3.2 網絡數據：tree = etree.HTML(網頁內容字符串)
                tree.xpath("xpath表達式")

Xpath表達式

測試頁面數據

<html lang="en">
<head>
    <meta charset="UTF-8" />
    <title>測試bs4</title>
</head>
<body>
    <div>
        <p>百里守約</p>
    </div>
    <div class="song">
        <p>李清照</p>
        <p>王安石</p>
        <p>蘇軾</p>
        <p>柳宗元</p>
        <a href="http://www.song.com/" title="趙匡胤" target="_self">
            <span>this is span</span>
        宋朝是最強大的王朝，不是軍隊的強大，而是經濟很強大，國民都頗有錢</a>
        <a href="" class="du">總爲浮雲能蔽日,長安不見令人愁</a>
        <img src="http://www.baidu.com/meinv.jpg" alt="" />
    </div>
    <div class="tang">
        <ul>
            <li><a href="http://www.baidu.com" title="qing">清明時節雨紛紛,路上行人慾斷魂,借問酒家何處有,牧童遙指杏花村</a></li>
            <li><a href="http://www.163.com" title="qin">秦時明月漢時關,萬里長征人未還,但使龍城飛將在,不教胡馬度陰山</a></li>
            <li><a href="http://www.126.com" alt="qi">岐王宅裏尋常見,崔九堂前幾度聞,正是江南好風景,落花時節又逢君</a></li>
            <li><a href="http://www.sina.com" class="du">杜甫</a></li>
            <li><a href="http://www.dudu.com" class="du">杜牧</a></li>
            <li><b>杜小月</b></li>
            <li><i>度蜜月</i></li>
            <li><a href="http://www.haha.com" id="feng">鳳凰臺上鳳凰遊,鳳去臺空江自流,吳宮花草埋幽徑,晉代衣冠成古丘</a></li>
        </ul>
    </div>
</body>
</html>

經常使用Xpath表達式

'''
屬性定位：
    #找到class屬性值爲song的div標籤
    //div[@class="song"]     # // 表示整個文檔下
層級&索引定位：
    #找到class屬性值爲tang的div的直系子標籤ul下的第二個子標籤li下的直系子標籤a
    //div[@class="tang"]/ul/li[2]/a    
邏輯運算：
    #找到href屬性值爲空且class屬性值爲du的a標籤
    //a[@href="" and @class="du"]
模糊匹配：
    //div[contains(@class, "ng")]
    //div[starts-with(@class, "ta")]
取文本：
    # /表示獲取某個標籤下的文本內容
    # //表示獲取某個標籤下的文本內容和全部子標籤下的文本內容
    //div[@class="song"]/p[1]/text()
    //div[@class="tang"]//text()
取屬性：
    //div[@class="tang"]//li[2]/a/@href
'''

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。