Python之爬蟲(二十四) 爬蟲與反爬蟲大戰

爬蟲與發爬蟲的廝殺,一方爲了拿到數據,一方爲了防止爬蟲拿到數據,誰是最後的贏家?服務器

從新理解爬蟲中的一些概念

爬蟲:自動獲取網站數據的程序
反爬蟲:使用技術手段防止爬蟲程序爬取數據
誤傷:反爬蟲技術將普通用戶識別爲爬蟲,這種狀況多出如今封ip中,例如學校網絡、小區網絡再或者網絡網絡都是共享一個公共ip,這個時候若是是封ip就會致使不少正常訪問的用戶也沒法獲取到數據。因此相對來講封ip的策略不是特別好,一般都是禁止某ip一段時間訪問。
成本:反爬蟲也是須要人力和機器成本
攔截:成功攔截爬蟲,通常攔截率越高,誤傷率也就越高網絡

反爬蟲的目的

初學者寫的爬蟲:簡單粗暴,無論對端服務器的壓力,甚至會把網站爬掛掉了網站

數據保護:不少的數據對某些公司網站來講是比較重要的不但願被別人爬取blog

商業競爭問題:這裏舉個例子是關於京東和天貓,假如京東內部經過程序爬取天貓全部的商品信息,從而作對應策略這樣對天貓來講就形成了很是大的競爭ip

爬蟲與反爬蟲大戰

上有政策下有對策,下面整理了常見的爬蟲大戰策略程序

相關文章
相關標籤/搜索