Python爬蟲連載14-動態HTML、PhantomJS和Chromedriver

1、動態HTMLhtml

1.爬蟲跟反爬蟲python

2.動態HTML連載git

(1)JavaScriptgithub

(2)jQueryweb

(3)Ajax瀏覽器

(4)DHTML微信

(5)Python採集動態數據函數

從JavaScript代碼入手採集​;Python第三方庫運行JavaScript,直接採集你在瀏覽器中看到的頁面工具

2、Selenium + PhantomJS學習

1.Selenium:web自動化測試工具

(1)​自動加載頁面;(2)​獲取數據;(3)截屏

​(4)官方文檔:http://selenium-python.readthedocs.io/index.html

2.PhantomJS

(1)基於WebKit的無界面的瀏覽器

(2)​官方網站:http://phantomjs.org/download.html

3.Selenium庫有一個WebDriver的API

4.WebDriver能夠跟頁面上的元素進行各類交互,用它能夠來進行爬取

 

"""

經過webdriver操做模擬進行查找

"""

from selenium import webdriver

import time

#經過keys模擬鍵盤

from selenium.webdriver.common.keys import Keys

#操做哪一個瀏覽器就對哪一個瀏覽器創建一個實例

#自動按照環境變量查找相應的瀏覽器

driver = webdriver.PhantomJS()#這個就是瀏覽器的實例

#若是瀏覽器沒有相應的環境瀏覽器,須要指定瀏覽器位置

driver.get("http://www.baidu.com")#去訪問這個網站,而後獲取返回的數據

#經過函數查找title標籤

print("Title:{0}".format(driver.title))

5.Chrome + Chromedriver

下載Chrome​:下載和安裝

Chromdriver​安裝

5、源碼

Reptile14_1_DHTML.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptile14_1_DHTML.py

2.CSDN:https://blog.csdn.net/weixin_44630050

3.博客園:https://www.cnblogs.com/ruigege0000/

4.歡迎關注微信公衆號:傅里葉變換,我的公衆號,僅用於學習交流,後臺回覆」禮包「,獲取大數據學習資料

 

相關文章
相關標籤/搜索