本文關鍵詞:代理IP,動態代理IPhtml
1. 設置背景chrome
在使用selenium瀏覽器渲染技術,當咱們爬取某個網站的信息的時候,在通常狀況下速度都不是特別的快。並且須要利用selenium瀏覽器渲染技術爬取的網站,反爬蟲的應對技術都比較厲害,對IP訪問頻率有很高程度的限制。因此,若是想提高selenium抓取數據的速度,能夠從兩個方面出發:瀏覽器
第一方面, 抓取頻率要提升,破解出現的驗證信息,通常都是驗證碼或者是用戶登錄 。
緩存
第二方面,使用多線程 + 代理IP, 這種方式,須要電腦有足夠的內存和充足穩定的代理IP 。
多線程
2. 爲chrome設置代理IP
併發
注意事項:
scrapy
第一,選擇穩定的固定的代理IP。不要選擇動態代理IP。咱們經常使用的爬蟲IP代理一般都是具備高度保密性質的高匿名動態IP,是經過撥號動態產生的,時效性很是的短,通常都是在3分鐘左右。對於scrapy這種併發度很高,又不須要登陸的爬蟲來講,很是合適,可是在瀏覽器渲染類爬蟲中並不適用。網站
第二,選擇速度較快的代理IP。由於selenium爬蟲採用的是瀏覽器渲染技術,這種瀏覽器渲染技術速度就自己就很慢。若是選擇的代理IP速度較慢,爬取的時間就會進一步增長。ui
第三,要有足夠大的電腦內存。由於chrome佔內存較大,在併發度很高的狀況下,容易形成瀏覽器崩潰,也就是程序崩潰。
線程
第四,在程序結束時,調用 browser.quit( ) 清除瀏覽器緩存。
3. 須要用戶名密碼驗證的代理