https://github.com/factsbenchmarks/taobao-jingdonghtml
一 簡單鋪墊python
Selenium負責驅動瀏覽器與python對接git
PhantomJS負責渲染解析JavaScriptgithub
二 函數web
單獨一個函數,傳一個參數 頁碼,實現跳轉到該指定頁面的功能。chrome
獲取某頁碼內的信息,返回字典格式。將字典格式的數據,保存到數據庫。這兩個功能,能夠單獨寫兩個函數。即插即用,沒問題。數據庫
三 selenium在最新的版本中並不支持PhantomJS,推薦headless Chrome。瀏覽器
參考文件:less
https://developers.google.cn/web/updates/2017/04/headless-chrome函數
http://www.javashuo.com/article/p-tyzdzogi-bb.html
from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = Options() chrome_options.add_argument('--headless') chrome_options.add_argument('--disable-gpu') driver = webdriver.Chrome(chrome_options=chrome_options) driver.get("https://cnblogs.com/")