爬蟲——基於RedisSpider分佈式爬取網易新聞：代理池，ua池，selenium加載動態數據，分佈式

時間 2021-01-10

原文原文鏈接

總結：先編寫普通工程代碼再改寫。 selenium使用 1、在爬蟲文件中，用selenium創建瀏覽器對象， 2、然後改寫下載中間件的process_response方法，通過該方法對下載中間件獲取的頁面響應內容進行更改，更改成瀏覽器對象去模擬瀏覽器獲取全部頁面之後的內容。 3、進一步發現頁面下拉的時候數據還會不斷加載，因此在讓瀏覽器再執行一段js代碼移動到瀏覽器底部。 4、settings裏中

>>阅读原文<<