關於使用HTTP代理IP爬蟲採集的認知誤區

關於使用HTTP代理IP爬蟲採集的認知誤區
html

大部分人都知道,在使用爬蟲屢次爬取同一網站時,常常會被網站的IP反爬蟲機制給禁掉,爲了解決封禁 IP 的問題一般會使用代理IP。服務器

但也有一部分人在HTTP代理IP的使用上存在着誤解,他們認爲使用了代理IP就能解決一切問題,然而實際上代理IP不是萬能的,它只是一個工具,若是使用不當,同樣會被封IP。cookie

代理IP分三種類型:透明代理、普通匿名代理、高級匿名代理。工具

高匿、匿名和透明代理的主要區別在於對方服務器獲取REMOTE_ADDR、HTTP_X_FORWARDED_FOR、HTTP_VIA三個參數的區別。網站

衆所周知,REMOTE_ADDR是沒法僞造的。spa

使用透明代理(Transparent),對方服務器知道你使用了代理,也知道你的真實IP。REMOTE_ADDR = ProxyIP,HTTP_VIA = ProxyIP,HTTP_X_FORWARDED_FOR = YourIP代理

使用匿名代理(Anonymous),對方服務器知道你使用了代理,但不知道你的真實IP。REMOTE_ADDR = ProxyIP,HTTP_VIA = ProxyIP,HTTP_X_FORWARDED_FOR = ProxyIPhtm

使用高匿名代理(High),對方服務器不知道你使用了代理,也不知道你的真實IP。REMOTE_ADDR = ProxyIP,HTTP_VIA = NULL,HTTP_X_FORWARDED_FOR = NULLget



使用透明代理和普通匿名代理會被目標網站得知使用了代理IP,天然會受到限制,高級匿名代理則不會,因此在選擇代理IP的時候,要注意這一點。di

使用一個代理IP爬取目標網站,被封IP的因素太多,好比cookie,好比User Agent等等,當達到了閾值後,IP就會被封;當訪問目標網站的頻率過快時,IP也會被封,由於人類正常訪問遠遠達不到那個頻率,天然會被目標網站的反爬蟲策略識別。

只有儘可能地模擬真實用戶正常訪問,才能最大程度地避免被封IP。

相關文章
相關標籤/搜索