爬蟲總結
編輯本隨筆ajax
爬蟲模塊redis
- urllib
- requests
robots協議異步
- 防止爬蟲爬取,只能防君子。requests模塊沒有使用硬性語法對該協議進行生效
- scrapy硬性的語法對該協議進行了生效,需手動開關
處理驗證碼scrapy
- 雲打碼平臺(付費)
- 打碼兔(付費)
數據解析方式分佈式
- 正則
- xpath
- bs4
如何爬取動態加載的頁面數據ide
- selenium
- ajax,抓包工具抓取異步發起的請求
有哪些反扒機制工具
- robots協議:關閉尊崇robots協議
- UA:UA池
- 封IP:proxy池
- 驗證碼:打碼平臺
- 動態數據:selenium或ajax動態請求
- 加密數據:嘗試解碼
- token:動態解析
scrapy中接觸過幾種爬蟲的類post
- Spider
- CrawlSpider:提供連接提取器,規則提取器
- RedisCrawlSpider
- RedisSpider
如何實現分佈式流程加密
- 基於RedisCrawlSpider和RedisSpider。需安裝scrapy-redis
歡迎關注本站公眾號,獲取更多信息