Python網絡爬蟲-xpath模塊

時間 2019-12-10

原文原文鏈接

一.正解解析

   單字符：
        . : 除換行之外全部字符
        [] ：[aoe] [a-w] 匹配集合中任意一個字符
        \d ：數字  [0-9]
        \D : 非數字
        \w ：數字、字母、下劃線、中文
        \W : 非\w
        \s ：全部的空白字符包,括空格、製表符、換頁符等等。等價於 [ \f\n\r\t\v]。
        \S : 非空白
    數量修飾：
        * : 任意屢次  >=0
        + : 至少1次   >=1
        ? : 無關緊要  0次或者1次
        {m} ：固定m次 hello{3,}
        {m,} ：至少m次
        {m,n} ：m-n次
    邊界：
        $ : 以某某結尾 
        ^ : 以某某開頭
    分組：
        (ab)  
    貪婪模式： .*
    非貪婪（惰性）模式： .*?

    re.I : 忽略大小寫
    re.M ：多行匹配
    re.S ：單行匹配

    re.sub(正則表達式, 替換內容, 字符串)

經常使用正則表達式

二.Xpath解析

<html lang="en">
<head>
    <meta charset="UTF-8" />
    <title>測試bs4</title>
</head>
<body>
    <div>
        <p>百里守約</p>
    </div>
    <div class="song">
        <p>李清照</p>
        <p>王安石</p>
        <p>蘇軾</p>
        <p>柳宗元</p>
        <a href="http://www.song.com/" title="趙匡胤" target="_self">
            <span>this is span</span>
        宋朝是最強大的王朝，不是軍隊的強大，而是經濟很強大，國民都頗有錢</a>
        <a href="" class="du">總爲浮雲能蔽日,長安不見令人愁</a>
        <img src="http://www.baidu.com/meinv.jpg" alt="" />
    </div>
    <div class="tang">
        <ul>
            <li><a href="http://www.baidu.com" title="qing">清明時節雨紛紛,路上行人慾斷魂,借問酒家何處有,牧童遙指杏花村</a></li>
            <li><a href="http://www.163.com" title="qin">秦時明月漢時關,萬里長征人未還,但使龍城飛將在,不教胡馬度陰山</a></li>
            <li><a href="http://www.126.com" alt="qi">岐王宅裏尋常見,崔九堂前幾度聞,正是江南好風景,落花時節又逢君</a></li>
            <li><a href="http://www.sina.com" class="du">杜甫</a></li>
            <li><a href="http://www.dudu.com" class="du">杜牧</a></li>
            <li><b>杜小月</b></li>
            <li><i>度蜜月</i></li>
            <li><a href="http://www.haha.com" id="feng">鳳凰臺上鳳凰遊,鳳去臺空江自流,吳宮花草埋幽徑,晉代衣冠成古丘</a></li>
        </ul>
    </div>
</body>
</html>

測試頁面數據

屬性定位：
    #找到class屬性值爲song的div標籤
    //div[@class="song"] 
層級&索引定位：
    #找到class屬性值爲tang的div的直系子標籤ul下的第二個子標籤li下的直系子標籤a
    //div[@class="tang"]/ul/li[2]/a
邏輯運算：
    #找到href屬性值爲空且class屬性值爲du的a標籤
    //a[@href="" and @class="du"]
模糊匹配：
    //div[contains(@class, "ng")]
    //div[starts-with(@class, "ta")]
取文本：
    # /表示獲取某個標籤下的文本內容
    # //表示獲取某個標籤下的文本內容和全部子標籤下的文本內容
    //div[@class="song"]/p[1]/text()
    //div[@class="tang"]//text()
取屬性：
    //div[@class="tang"]//li[2]/a/@href

經常使用xpath表達式

屬性定位：
    #找到class屬性值爲song的div標籤
    //div[@class="song"] 
層級&索引定位：
    #找到class屬性值爲tang的div的直系子標籤ul下的第二個子標籤li下的直系子標籤a
    //div[@class="tang"]/ul/li[2]/a
邏輯運算：
    #找到href屬性值爲空且class屬性值爲du的a標籤
    //a[@href="" and @class="du"]
模糊匹配：
    //div[contains(@class, "ng")]
    //div[starts-with(@class, "ta")]
取文本：
    # /表示獲取某個標籤下的文本內容
    # //表示獲取某個標籤下的文本內容和全部子標籤下的文本內容
    //div[@class="song"]/p[1]/text()
    //div[@class="tang"]//text()
取屬性：
    //div[@class="tang"]//li[2]/a/@href

    代碼中使用xpath表達式進行數據解析：

1.下載：pip install lxml
2.導包：from lxml import etree

3.將html文檔或者xml文檔轉換成一個etree對象，而後調用對象中的方法查找指定的節點

　　2.1 本地文件：tree = etree.parse(文件名)
                tree.xpath("xpath表達式")

　　2.2 網絡數據：tree = etree.HTML(網頁內容字符串)
                tree.xpath("xpath表達式")

屬性定位

需求：獲取好段子中段子的內容和做者 http://www.haoduanzi.comhtml

from lxml import etree
import requests

url='http://www.haoduanzi.com/category-10_2.html'
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
    }
url_content=requests.get(url,headers=headers).text
#使用xpath對url_conten進行解析
#使用xpath解析從網絡上獲取的數據
tree=etree.HTML(url_content)
#解析獲取當頁全部段子的標題
title_list=tree.xpath('//div[@class="log cate10 auth1"]/h3/a/text()')

ele_div_list=tree.xpath('//div[@class="log cate10 auth1"]')

text_list=[] #最終會存儲12個段子的文本內容
for ele in ele_div_list:
    #段子的文本內容（是存放在list列表中）
    text_list=ele.xpath('./div[@class="cont"]//text()')
    #list列表中的文本內容所有提取到一個字符串中
    text_str=str(text_list)
    #字符串形式的文本內容防止到all_text列表中
    text_list.append(text_str)
print(title_list)
print(text_list)

【重點】下載煎蛋網中的圖片數據：http://jandan.net/ooxx

import requests
from lxml import etree
from fake_useragent import UserAgent
import base64
import urllib.request
url = 'http://jandan.net/ooxx'
ua = UserAgent(verify_ssl=False,use_cache_server=False).random
headers = {
    'User-Agent':ua
}
page_text = requests.get(url=url,headers=headers).text

#查看頁面源碼：發現全部圖片的src值都是同樣的。
#簡單觀察會發現每張圖片加載都是經過jandan_load_img(this)這個js函數實現的。
#在該函數後面還有一個class值爲img-hash的標籤，裏面存儲的是一組hash值，該值就是加密後的img地址
#加密就是經過js函數實現的，因此分析js函數，獲知加密方式，而後進行解密。
#經過抓包工具抓取起始url的數據包，在數據包中全局搜索js函數名（jandan_load_img），而後分析該函數實現加密的方式。
#在該js函數中發現有一個方法調用，該方法就是加密方式，對該方法進行搜索
#搜索到的方法中會發現base64和md5等字樣，md5是不可逆的因此優先考慮使用base64解密
#print(page_text)

tree = etree.HTML(page_text)
#在抓包工具的數據包響應對象對應的頁面中進行xpath的編寫，而不是在瀏覽器頁面中。
#獲取了加密的圖片url數據
imgCode_list = tree.xpath('//span[@class="img-hash"]/text()')
imgUrl_list = []
for url in imgCode_list:
    #base64.b64decode(url)爲byte類型，須要轉成str
    img_url = 'http:'+base64.b64decode(url).decode()
    imgUrl_list.append(img_url)

for url in imgUrl_list:
    filePath = url.split('/')[-1]
    urllib.request.urlretrieve(url=url,filename=filePath)
    print(filePath+'下載成功')