Selenium+Chrome+PhantomJS 爬取淘寶

https://github.com/factsbenchmarks/taobao-jingdonghtml

一 簡單鋪墊python

  Selenium負責驅動瀏覽器與python對接git

  PhantomJS負責渲染解析JavaScriptgithub

二  函數web

  單獨一個函數,傳一個參數 頁碼,實現跳轉到該指定頁面的功能。chrome

  獲取某頁碼內的信息,返回字典格式。將字典格式的數據,保存到數據庫。這兩個功能,能夠單獨寫兩個函數。即插即用,沒問題。數據庫

 

 

三 selenium在最新的版本中並不支持PhantomJS,推薦headless Chrome。瀏覽器

  參考文件:less

  https://developers.google.cn/web/updates/2017/04/headless-chrome函數

  http://www.javashuo.com/article/p-tyzdzogi-bb.html

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get("https://cnblogs.com/")
相關文章
相關標籤/搜索