關於使用HTTP代理IP爬蟲採集的認知誤區

時間 2019-11-17

標籤關於使用 http 代理爬蟲採集認知誤區欄目 HTTP/TCP 简体版

原文原文鏈接

關於使用HTTP代理IP爬蟲採集的認知誤區
html

大部分人都知道，在使用爬蟲屢次爬取同一網站時，常常會被網站的IP反爬蟲機制給禁掉，爲了解決封禁 IP 的問題一般會使用代理IP。服務器

但也有一部分人在HTTP代理IP的使用上存在着誤解，他們認爲使用了代理IP就能解決一切問題，然而實際上代理IP不是萬能的，它只是一個工具，若是使用不當，同樣會被封IP。cookie

代理IP分三種類型：透明代理、普通匿名代理、高級匿名代理。工具

高匿、匿名和透明代理的主要區別在於對方服務器獲取REMOTE_ADDR、HTTP_X_FORWARDED_FOR、HTTP_VIA三個參數的區別。網站

衆所周知，REMOTE_ADDR是沒法僞造的。spa

使用透明代理(Transparent)，對方服務器知道你使用了代理，也知道你的真實IP。REMOTE_ADDR = ProxyIP，HTTP_VIA = ProxyIP，HTTP_X_FORWARDED_FOR = YourIP代理

使用匿名代理(Anonymous)，對方服務器知道你使用了代理，但不知道你的真實IP。REMOTE_ADDR = ProxyIP，HTTP_VIA = ProxyIP，HTTP_X_FORWARDED_FOR = ProxyIPhtm

使用高匿名代理(High)，對方服務器不知道你使用了代理，也不知道你的真實IP。REMOTE_ADDR = ProxyIP，HTTP_VIA = NULL，HTTP_X_FORWARDED_FOR = NULLget

使用透明代理和普通匿名代理會被目標網站得知使用了代理IP，天然會受到限制，高級匿名代理則不會，因此在選擇代理IP的時候，要注意這一點。di

使用一個代理IP爬取目標網站，被封IP的因素太多，好比cookie，好比User Agent等等，當達到了閾值後，IP就會被封；當訪問目標網站的頻率過快時，IP也會被封，由於人類正常訪問遠遠達不到那個頻率，天然會被目標網站的反爬蟲策略識別。

只有儘可能地模擬真實用戶正常訪問，才能最大程度地避免被封IP。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。