1五、web爬蟲講解2—urllib庫中使用xpath表達式—BeautifulSoup基礎

百度雲搜索:http://www.bdyss.cn

搜網盤:http://www.swpan.cn

在urllib中,咱們同樣能夠使用xpath表達式進行信息提取,此時,你須要首先安裝lxml模塊,而後將網頁數據經過lxml下的etree轉化爲treedata的形式html

urllib庫中使用xpath表達式python

etree.HTML()將獲取到的html字符串,轉換成樹形結構,也就是xpath表達式能夠獲取的格式web

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib.request
from lxml import etree  #導入html樹形結構轉換模塊

wye = urllib.request.urlopen('http://sh.qihoo.com/pc/home').read().decode("utf-8",'ignore')
zhuanh = etree.HTML(wye)  #將獲取到的html字符串,轉換成樹形結構,也就是xpath表達式能夠獲取的格式
print(zhuanh)
hqq = zhuanh.xpath('/html/head/title/text()') #經過xpath表達式獲取標題

#注意,xpath表達式獲取到數據,有時候是列表,有時候不是列表因此要作以下處理
if str(type(hqq)) == "<class 'list'>":  #判斷獲取到的是不是列表
    print(hqq)
else:
    xh_hqq = [i for i in hqq]       #若是不是列表,循環數據組合成列表
    print(xh_hqq)

#返回 :['【今日爆點】你的專屬資訊平臺']

BeautifulSoup基礎url

BeautifulSoup是獲取thml元素的模塊spa

BeautifulSoup-3.2.1版本code

image

【轉載自:http://www.lqkweb.comxml

相關文章
相關標籤/搜索