在urllib中,咱們同樣能夠使用xpath表達式進行信息提取,此時,你須要首先安裝lxml模塊,而後將網頁數據經過lxml下的etree轉化爲treedata的形式html
urllib庫中使用xpath表達式python
etree.HTML()將獲取到的html字符串,轉換成樹形結構,也就是xpath表達式能夠獲取的格式web
#!/usr/bin/env python # -*- coding:utf8 -*- import urllib.request from lxml import etree #導入html樹形結構轉換模塊 wye = urllib.request.urlopen('http://sh.qihoo.com/pc/home').read().decode("utf-8",'ignore') zhuanh = etree.HTML(wye) #將獲取到的html字符串,轉換成樹形結構,也就是xpath表達式能夠獲取的格式 print(zhuanh) hqq = zhuanh.xpath('/html/head/title/text()') #經過xpath表達式獲取標題 #注意,xpath表達式獲取到數據,有時候是列表,有時候不是列表因此要作以下處理 if str(type(hqq)) == "<class 'list'>": #判斷獲取到的是不是列表 print(hqq) else: xh_hqq = [i for i in hqq] #若是不是列表,循環數據組合成列表 print(xh_hqq) #返回 :['【今日爆點】你的專屬資訊平臺']
BeautifulSoup基礎url
BeautifulSoup是獲取thml元素的模塊spa
BeautifulSoup-3.2.1版本code
【轉載自:http://www.lqkweb.com】xml