[爬蟲]xpath沒法定位tbody標籤

時間 2019-11-10

原文原文鏈接

測試庫：lxml庫；連接連接：http://www.sxchxx.com/index-13-1075-1.htmlhtml

問題發現

我的比較喜歡用xpath解析網頁，但時常獲得的結果倒是一個空列表。測試

1.1 etree.HTML

from lxml import etree
import requests

url = 'http://www.sxchxx.com/index-13-1075-1.html'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36',
}
resposne = requests.get(url, headers=headers)

parser = etree.HTMLParser(encoding="utf-8")
html = etree.HTML(resposne.text, parser=parser)

resu=html.xpath('//*[@id="large_mid"]/table[2]/tr[3]/td/p//text()')
print(resu)

當用如上代碼解析以下網頁時，能夠獲取正文
url

但發現咱們並無在rule裏面加入tbody標籤。相反，加入tbody標籤會使的解析結果變成一個空列表spa

html.xpath('//*[@id="large_mid"]/table[2]/tbody/tr[3]/td/p//text()') # 這樣會獲得空列表3d

1.2 etree.parse

使用etree.parse和etree.HTML剛好相反code

from lxml import etree
import requests

parser = etree.HTMLParser(encoding="utf-8")
html = etree.parse('test.html', parser=parser)


content = html.xpath('//*[@id="large_mid"]/table[2]/tbody/tr[3]/td/p//text()')

print(content)

將網頁保存成test.html，再用etree.parse加載，發現rule中加入tbody標籤才能得到預期的結果；不加tbody標籤會得到一個空列表xml

1.3 代碼對比

from lxml import etree
import requests

parser = etree.HTMLParser(encoding="utf-8")
html = etree.parse('test.html', parser=parser)

content = html.xpath('//*[@id="large_mid"]/table[2]/tbody/tr[3]/td/p//text()')
print(content)

print('----------------分割線-------------------')

url = 'http://www.sxchxx.com/index-13-1075-1.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36',
}
resposne = requests.get(url, headers=headers)

parser = etree.HTMLParser(encoding="utf-8")
html = etree.HTML(resposne.text, parser=parser)

content = html.xpath('//*[@id="large_mid"]/table[2]/tr[3]/td/p//text()')
print(content)