爬蟲總結

編輯本隨筆ajax

爬蟲模塊redis

  1. urllib
  2. requests

robots協議異步

  1. 防止爬蟲爬取,只能防君子。requests模塊沒有使用硬性語法對該協議進行生效
  2. scrapy硬性的語法對該協議進行了生效,需手動開關

處理驗證碼scrapy

  1. 雲打碼平臺(付費)
  2. 打碼兔(付費)

數據解析方式分佈式

  1. 正則
  2. xpath
  3. bs4

如何爬取動態加載的頁面數據ide

  1. selenium
  2. ajax,抓包工具抓取異步發起的請求

有哪些反扒機制工具

  1. robots協議:關閉尊崇robots協議
  2. UA:UA池
  3. 封IP:proxy池
  4. 驗證碼:打碼平臺
  5. 動態數據:selenium或ajax動態請求
  6. 加密數據:嘗試解碼
  7. token:動態解析

scrapy中接觸過幾種爬蟲的類post

  1. Spider
  2. CrawlSpider:提供連接提取器,規則提取器
  3. RedisCrawlSpider
  4. RedisSpider

如何實現分佈式流程加密

  1. 基於RedisCrawlSpider和RedisSpider。需安裝scrapy-redis
相關文章
相關標籤/搜索