對於反扒機制的網站爬蟲爬取數據返回503處理方法

時間 2021-01-16

原文原文鏈接

比如亞馬遜網站，運用爬蟲爬取其網站數據時，其狀態碼會返回503，原因是因爲其網站有反扒機制。 1.爬取京東網站，直接爬取，成功 2.用相同的方法爬取亞馬遜的網站，失敗那麼亞馬遜網站是如何識別到是爬蟲瀏覽而非用戶通過瀏覽器瀏覽呢？不管是用瀏覽器還是爬蟲登錄網站都會有一個Headers，其中有一個user-agent字段，爬蟲此字段爲，亞馬遜通過此字段判定是爬蟲。我們可以通過修改此字段來正常爬取，

>>阅读原文<<