爬蟲——基於RedisSpider分佈式爬取網易新聞：代理池，ua池，selenium加載動態數據，分佈式

時間 2020-02-01

標籤爬蟲基於 redisspider 分佈式網易代理 selenium 加載動態數據欄目網絡爬蟲简体版

原文原文鏈接

總結：先編寫普通工程代碼再改寫。html selenium使用一、在爬蟲文件中，用selenium建立瀏覽器對象，二、而後改寫下載中間件的process_response方法，經過該方法對下載中間件獲取的頁面響應內容進行更改，更改爲瀏覽器對象去模擬瀏覽器獲取所有頁面以後的內容。三、進一步發現頁面下拉的時候數據還會不斷加載，所以在讓瀏覽器再執行一段js代碼移動到瀏覽器底部。四、settin

>>阅读原文<<