Python 網頁爬蟲

解決問題:獲取網頁上的內容。特別是加載主框架後,再用AJAX獲取數據生成內容的網頁。瀏覽器

PyQuery:能夠像jQuery的py實現。你給他一個PyQuery一個HTML,他給你一個相似jQuery的操做.只能獲取普通網頁。AJAX的網頁就無能爲力。session

Ghost.py:一個封裝Webkit(瀏覽器核心)的類庫。就是模擬瀏覽器訪問網頁。框架

安裝類庫 ide

pip install PyQueryspa

pip install PySidecode

pip install Ghost.pyblog

from ghost import Ghost
from pyquery import PyQuery as pq

 

g=Ghost()
session=g.start()
session.open('http://www.163.com' ,wait=None)
session.wait_for_page_loaded()
doc=pq(session.content)

這樣 doc 就能夠看成$用了ip

相關文章
相關標籤/搜索