Python 網頁爬蟲

時間 2019-12-09

標籤 python 網頁爬蟲欄目 Python 简体版

原文原文鏈接

解決問題：獲取網頁上的內容。特別是加載主框架後，再用AJAX獲取數據生成內容的網頁。瀏覽器

PyQuery：能夠像jQuery的py實現。你給他一個PyQuery一個HTML，他給你一個相似jQuery的操做.只能獲取普通網頁。AJAX的網頁就無能爲力。session

Ghost.py:一個封裝Webkit（瀏覽器核心）的類庫。就是模擬瀏覽器訪問網頁。框架

安裝類庫 ide

pip install PyQueryspa

pip install PySidecode

pip install Ghost.pyblog

from ghost import Ghost
from pyquery import PyQuery as pq

g=Ghost()
session=g.start()
session.open('http://www.163.com' ,wait=None)
session.wait_for_page_loaded()

doc=pq(session.content)

這樣 doc 就能夠看成$用了ip

相關標籤/搜索