你是否以爲 XPath
的用法多少有點晦澀難記呢?javascript
你是否以爲 BeautifulSoup
的語法多少有些慳吝難懂呢?css
你是否甚至還在苦苦研究正則表達式卻由於少些了一個點而抓狂呢?html
你是否已經有了一些前端基礎瞭解選擇器卻與另一些奇怪的選擇器語法混淆了呢?前端
嗯,那麼,前端大大們的福音來了,PyQuery
來了,乍聽名字,你必定聯想到了 jQuery
,若是你對 jQuery
熟悉,那麼 PyQuery
來解析文檔就是不二之選!包括我在內!java
PyQuery
是 Python
仿照 jQuery
的嚴格實現。語法與 jQuery
幾乎徹底相同,因此不用再去費心去記一些奇怪的方法了。python
天下居然有這等好事?我都等不及了!jquery
有這等神器還不趕忙安裝了!來!web
pip install pyquery
本文內容參考官方文檔,更多內容,你們能夠去官方文檔學習,畢竟那裏纔是最原汁原味的。ajax
目前版本 1.2.4 (2016/3/24)正則表達式
pyquery allows you to make jquery queries on xml documents. The API is
as much as possible the similar to jquery. pyquery uses lxml for fast
xml and html manipulation. This is not (or at least not yet) a library
to produce or interact with javascript code. I just liked the jquery
API and I missed it in python so I told myself 「Hey let’s make jquery
in python」. This is the result. It can be used for many purposes, one
idea that I might try in the future is to use it for templating with
pure http templates that you modify using pyquery. I can also be used
for web scrapping or for theming applications with Deliverance.
pyquery 可以讓你用 jQuery 的語法來對 xml 進行操做。這I和 jQuery 十分相似。若是利用 lxml,pyquery 對 xml 和 html 的處理將更快。
這個庫不是(至少還不是)一個能夠和 JavaScript交互的代碼庫,它只是很是像 jQuery API 而已。
在這裏介紹四種初始化方式。
from pyquery import PyQuery as pq doc = pq("<html></html>")
pq
參數能夠直接傳入 HTM
L 代碼,doc
如今就至關於 jQuery
裏面的 $
符號了。
lxml.etree
from lxml import etree doc = pq(etree.fromstring("<html></html>"))
能夠首先用 lxml
的 etree
處理一下代碼,這樣若是你的 HTML
代碼出現一些不完整或者疏漏,都會自動轉化爲完整清晰結構的 HTML
代碼。
URL
from pyquery import PyQuery as pq doc = pq('http://www.baidu.com')
這裏就像直接請求了一個網頁同樣,相似用 urllib2
來直接請求這個連接,獲得 HTML
代碼。
from pyquery import PyQuery as pq doc = pq(filename='hello.html')
能夠直接傳某個路徑的文件名。
如今咱們以本地文件爲例,傳入一個名字爲 hello.html
的文件,文件內容爲
<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li> <li class="item-1 active"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a></li> </ul> </div>
編寫以下程序
from pyquery import PyQuery as pq doc = pq(filename='hello.html') print doc.html() print type(doc) li = doc('li') print type(li) print li.text()
運行結果
<ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li> <li class="item-1 active"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a></li> </ul> <class 'pyquery.pyquery.PyQuery'> <class 'pyquery.pyquery.PyQuery'> first item second item third item fourth item fifth item
看,回憶一下 jQuery
的語法,是否是運行結果都是同樣的呢?
在這裏咱們注意到了一點,PyQuery
初始化以後,返回類型是 PyQuery
,利用了選擇器篩選一次以後,返回結果的類型依然仍是 PyQuery
,這簡直和 jQuery
一模一樣,不能更贊!然而想一下 BeautifulSoup
和 XPath
返回的是什麼?列表!一種不能再進行二次篩選(在這裏指依然利用 BeautifulSoup
或者 XPath
語法)的對象!
然而比比 PyQuery
,哦我簡直太愛它了!
你能夠徹底按照 jQuery
的語法來進行 PyQuery
的操做。
from pyquery import PyQuery as pq p = pq('<p id="hello" class="hello"></p>')('p') print p.attr("id") print p.attr("id", "plop") print p.attr("id", "hello")
運行結果
hello <p id="plop" class="hello"/> <p id="hello" class="hello"/>
再來一發
from pyquery import PyQuery as pq p = pq('<p id="hello" class="hello"></p>')('p') print p.addClass('beauty') print p.removeClass('hello') print p.css('font-size', '16px') print p.css({'background-color': 'yellow'})
運行結果
<p id="hello" class="hello beauty"/> <p id="hello" class="beauty"/> <p id="hello" class="beauty" style="font-size: 16px"/> <p id="hello" class="beauty" style="font-size: 16px; background-color: yellow"/>
依舊是那麼優雅與自信!
在這裏咱們發現了,這是一連串的操做,而 p
是一直在原來的結果上變化的。
所以執行上述操做以後,p
自己也發生了變化。
一樣的原汁原味的 jQuery
語法
from pyquery import PyQuery as pq p = pq('<p id="hello" class="hello"></p>')('p') print p.append(' check out <a href="http://reddit.com/r/python"><span>reddit</span></a>') print p.prepend('Oh yes!') d = pq('<div class="wrap"><div id="test"><a href="http://cuiqingcai.com">Germy</a></div></div>') p.prependTo(d('#test')) print p print d d.empty() print d
運行結果
<p id="hello" class="hello"> check out <a href="http://reddit.com/r/python"><span>reddit</span></a></p> <p id="hello" class="hello">Oh yes! check out <a href="http://reddit.com/r/python"><span>reddit</span></a></p> <p id="hello" class="hello">Oh yes! check out <a href="http://reddit.com/r/python"><span>reddit</span></a></p> <div class="wrap"><div id="test"><p id="hello" class="hello">Oh yes! check out <a href="http://reddit.com/r/python"><span>reddit</span></a></p><a href="http://cuiqingcai.com">Germy</a></div></div> <div class="wrap"/>
這不須要多解釋了吧。
DOM
操做也是與 jQuery
一模一樣。
遍歷用到 items
方法返回對象列表,或者用 lambda
from pyquery import PyQuery as pq doc = pq(filename='hello.html') lis = doc('li') for li in lis.items(): print li.html() print lis.each(lambda e: e)
運行結果
first item <a href="link2.html">second item</a> <a href="link3.html"><span class="bold">third item</span></a> <a href="link4.html">fourth item</a> <a href="link5.html">fifth item</a> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li> <li class="item-1 active"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a></li>
不過最經常使用的仍是 items 方法
PyQuery 自己還有網頁請求功能,並且會把請求下來的網頁代碼轉爲 PyQuery 對象。
from pyquery import PyQuery as pq print pq('http://cuiqingcai.com/', headers={'user-agent': 'pyquery'}) print pq('http://httpbin.org/post', {'foo': 'bar'}, method='post', verify=True)
感覺一下,GET
,POST
,樣樣通。
PyQuery
一樣支持 Ajax
操做,帶有 get
和 post
方法,不過不經常使用,通常咱們不會用 PyQuery
來作網絡請求,僅僅是用來解析。
最後少不了的,API
大放送。
原汁原味最全的API
,都在裏面了!若是你對 jQuery
語法不熟,強烈建議先學習下 jQuery
,再回來看 PyQuery
,你會感到異常親切!
用完了 PyQuery
,我已經深深愛上了他!
你呢?
轉自:http://cuiqingcai.com/2636.html