1五、web爬蟲講解2—urllib庫中使用xpath表達式—BeautifulSoup基礎

時間 2019-12-26

標籤 web 爬蟲講解 urllib 使用 xpath 表達式 beautifulsoup 基礎欄目 HTML 简体版

原文原文鏈接

【百度雲搜索:http://www.bdyss.cn】

【搜網盤:http://www.swpan.cn】

在urllib中，咱們同樣能夠使用xpath表達式進行信息提取，此時，你須要首先安裝lxml模塊，而後將網頁數據經過lxml下的etree轉化爲treedata的形式html

urllib庫中使用xpath表達式python

etree.HTML()將獲取到的html字符串，轉換成樹形結構，也就是xpath表達式能夠獲取的格式web

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib.request
from lxml import etree  #導入html樹形結構轉換模塊

wye = urllib.request.urlopen('http://sh.qihoo.com/pc/home').read().decode("utf-8",'ignore')
zhuanh = etree.HTML(wye)  #將獲取到的html字符串，轉換成樹形結構，也就是xpath表達式能夠獲取的格式
print(zhuanh)
hqq = zhuanh.xpath('/html/head/title/text()') #經過xpath表達式獲取標題

#注意，xpath表達式獲取到數據，有時候是列表，有時候不是列表因此要作以下處理
if str(type(hqq)) == "<class 'list'>":  #判斷獲取到的是不是列表
    print(hqq)
else:
    xh_hqq = [i for i in hqq]       #若是不是列表，循環數據組合成列表
    print(xh_hqq)

#返回 ：['【今日爆點】你的專屬資訊平臺']

BeautifulSoup基礎url

BeautifulSoup是獲取thml元素的模塊spa

BeautifulSoup-3.2.1版本code