爬蟲中如何強效防止ip被封問題？

時間 2021-01-11

原文原文鏈接

在數據收集層面來講，爬蟲要想採集數據，基本前提要能突破網站的反爬蟲機制，接着還能防止網站封IP，這樣纔可以高效的進行工作。爬蟲中如何強效防止ip被封問題？多線程採集，採集數據，都想盡可能快的採集更多的數據，否則大量的工作還一條一條採集，太耗時間了。比如，幾秒採集一次，這樣一分鐘能夠採集10次左右，一天能採集一萬多的頁面。如果是小型網站還好，但大型網站上千萬的網頁應該怎麼辦，根據這個速度採集需要