在無界面模式下發現請求地址所有報404,在有界面的模式下就是正常運行的。在網上查了半天,發現這種狀況,因爲爬取的網站進行了selenium反爬蟲致使的。linux
1.嘗試使用開啓開發者模式git
opt = webdriver.ChromeOptions()github
# 把chrome設置成無界面模式,不論windows仍是linux均可以,自動適配對應參數
opt.set_headless()
# 建立chrome無界面對象
opt.add_argument("--start-maximized") # 界面設置最大化
# opt.add_argument('no-sandbox')
opt.add_argument('--headless')
opt.add_argument('--disable-gpu')
opt.add_experimental_option('excludeSwitches', ['enable-automation'])#開啓開發者模式
driver = webdriver.Chrome(options=opt)web
運行以後仍是會報404,這種方法放棄chrome
2.嘗試使用firefix瀏覽器windows
opt=webdriver.FirefoxOptions()
opt.set_headless()
opt.add_argument("--start-maximized")
opt.add_argument('--headless')
opt.add_argument('--disable-gpu')
driver = webdriver.Firefox(options=opt)瀏覽器
成功解決問題,在無界面模式下能夠爬取,less
https://github.com/mozilla/geckodriver/releases/ 該連接能夠下載新的火狐瀏覽器驅動網站