爬蟲——基於RedisSpider分佈式爬取網易新聞:代理池,ua池,selenium加載動態數據,分佈式

總結: 先編寫普通工程代碼再改寫。 selenium使用 1、在爬蟲文件中,用selenium創建瀏覽器對象, 2、然後改寫下載中間件的process_response方法,通過該方法對下載中間件獲取的頁面響應內容進行更改,更改成瀏覽器對象去模擬瀏覽器獲取全部頁面之後的內容。 3、進一步發現頁面下拉的時候數據還會不斷加載,因此在讓瀏覽器再執行一段js代碼移動到瀏覽器底部。 4、settings裏中
相關文章
相關標籤/搜索