Scrapy爬取動態內容(二)Selenium Chrome方案

時間 2020-09-11

標籤 scrapy 動態內容 selenium chrome 方案欄目 Python 简体版

原文原文鏈接

Selemium參考文章：

https://www.jianshu.com/p/a1a64f649472

http://www.javashuo.com/article/p-arfhcsyr-me.html

https://blog.csdn.net/zhusongziye/article/details/80342781

http://www.javashuo.com/article/p-uhrhfnqo-na.html

https://juejin.im/entry/5adea7aff265da0b7451cc66

https://blog.csdn.net/fuck487/article/details/80852580

https://blog.csdn.net/lilongsy/article/details/80531378

https://www.jianshu.com/p/b35ebb1c1b0e

比較好的綜合對比各類方案的文章

Python 分佈式動態頁面爬蟲研究

https://juejin.im/entry/58de0c83a0bb9f0069dbcccf

Python 分佈式動態頁面爬蟲研究

https://juejin.im/entry/58de0c83a0bb9f0069dbcccf

分佈式Scrapy+chromedriver或Selenium Grid是實現分佈式動態爬蟲較好的選擇。

chromedriver資源地址

http://npm.taobao.org/mirrors/chromedriver/

以噹噹圖書詳情頁爲例，屢次對比了Splash和Selenium chome的採集效率：

Splash的平均採集時間爲40s，而且時不時會失敗

Selenium chrome的平均採集時間爲10s，不多碰到失敗。

說明chrome的效率和穩定性仍是挺有保證的。

1、開發環境

安裝selenium

pip install selenium

pip install isbnlib

根據平臺選擇安裝chromedriver並移動至系統目錄下，如/usr/local/bin

運行」chromedriver"檢測是否安裝成功。

2、使用

這裏碰到了一個棘手的問題，就是在driver.get的時候，常常等待兩分鐘以上纔會進入下一步，經過幾天的摸索和搜索，發現能夠經過配置加載策略解決這個問題。

1. PageLoadStrategy

參考文章：

https://www.jianshu.com/p/749974311f10

https://blog.csdn.net/wkb342814892/article/details/81611737

當調用driver.get(" https://xxxx.xxx.xxx")來訪問某頁面時，get方法一般會阻塞瀏覽器直到頁面徹底加載後才執行後面的動做，若一個頁面加載過慢，則會致使get方法一直阻塞。有時候但願頁面在加載過程當中就開始檢測元素是否存在，而不是等到頁面加載完了纔開始檢測，想要實現這個效果，能夠用ChromeOptions類下的setPageLoadStrategy方法：

desired_capabilities = DesiredCapabilities.CHROME

desired_capabilities["pageLoadStrategy"] = "none"

driver = webdriver.Chrome(desired_capabilities=desired_capabilities,chrome_options=chrome_options)

其中PageLoadStrategy有三種選擇：

(1) none: 當html下載完成以後，不等待解析完成，selenium會直接返回

(2) eager: 要等待整個dom樹加載完成，即DOMContentLoaded這個事件完成，僅對html的內容進行下載解析

(3) normal: 即正常狀況下，selenium會等待整個界面加載完成（指對html和子資源的下載與解析,如JS文件，圖片等，不包括ajax）

實際上，對於一個新加載的dom，頁面啥時候開始接受命令由頁面的加載策略決定，也就是說，咱們經過修改頁面加載策略，可使頁面即便處於加載中，也能接受咱們的命令，從這點能夠解決webdriver.get的阻塞問題。而每類webdriver都有一個對應的配置文件放在特定的類DesiredCapabilities裏面，經過修改裏面的pageLoadStrategy，可使webdriver的頁面加載策略發生改變。

二、chrome參數設置

chrome_options = webdriver.ChromeOptions()

chrome_options.add_argument("--disable-extensions")

chrome_options.add_argument("--disable-gpu")

chrome_options.add_argument("--no-sandbox") # 取消沙盒模式, for linux root

chrome_options.add_argument("--headless") # 瀏覽器不提供可視化頁面

chrome_options.add_argument('--start-maximized') # 最大化運行（全屏窗口）,不設置，取元素會報錯

chrome_options.add_argument('--disable-infobars') # 禁用瀏覽器正在被自動化程序控制的提示

chrome_options.add_argument('--incognito') # 隱身模式（無痕模式）

chrome_options.add_argument('blink-settings=imagesEnabled=false') # 不加載圖片

chrome_options.add_argument('log-level=2’) # 日誌級別

# info(default) = 0

# warning = 1

# LOG_ERROR = 2

# LOG_FATAL = 3

三、代理設置

這裏發現動態變動代理是個挺麻煩的事情，目前根據下面的文章已經摸索成功並投入運行。

http://longofo.cc/selenium%E5%AE%9E%E7%8E%B0%E5%8A%A8%E6%80%81%E5%88%87%E6%8D%A2ip.html

麻煩的一點是打開的chrome實例須要按期清理，不然CPU使用率一直下不來，致使系統壓力過大。

四、scrapy-async-selenium

Selenium在scrapy的異步使用，解決了已知阻塞的效率問題，又一篇神做，給了很大的啓發！

總體方案是很是合理有效的。

已經在系統中成功使用，期間還有一些細節問題待進一步梳理。

相關文章

相關標籤/搜索

scrapy+selenium

selenium+chrome

解決方案二

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<