Tomcat和搜索引擎網絡爬蟲的攻防

時間 2019-11-19

標籤 tomcat 搜索引擎網絡爬蟲攻防欄目 Tomcat 简体版

原文原文鏈接

不知道廣大程序員朋友們注意到一個現象麼？使用百度是沒法搜索到淘寶網的網頁。爲何會形成這種現象？這就要從網絡爬蟲提及了。html

我們程序員假如本身搭設我的網站，在上面分享少許本身的技術文章，面臨的一個重要問題就是讓搜索引擎可以搜索到本身的我的網站，這樣才能讓更多的讀者訪問到。java

而搜索引擎如百度和微軟Bing搜索，Google搜索等經過什麼方式才能收錄咱們的我的網站呢？程序員

答案是搜索引擎的網絡爬蟲。網絡爬蟲是一個很形象的名詞，是屬於搜索引擎的工具，只有被這些網絡爬蟲「爬過」的內容纔有機會出如今對應搜索引擎的搜索結果中。正則表達式

我的站長對網絡爬蟲是又愛又恨。一方面，網絡爬蟲可讓咱們的我的網站出如今搜索結果裏，對咱們的我的網站進行擴散。另外一方面，假如網絡爬蟲太多太頻繁地訪問我的網站，會確定程度上影響正常使用戶的請求解決。apache

因而就有了文章開頭我提到的百度搜不到淘寶產品信息的文章。瀏覽器

在瀏覽器裏輸入https://www.taobao.com/robots.txt，tomcat

能看到淘寶網的一個文件robots.txt:服務器

隨意選一段解釋：這個robots.txt的意思是，淘寶網作出了規定，假如網絡請求來自百度爬蟲(Baiduspider), 那麼只容許(allow)百度爬蟲讀取article, oshtml和/ershou, 不容許讀取的是product。網絡

User-agent: Baiduspidersession

Allow: /article

Allow: /oshtml

Allow: /ershou

Disallow: /product/

Disallow: /

那麼淘寶網怎樣知道一個請求是來自百度爬蟲，仍是來自真正的使用戶訪問呢？答案就是HTTP請求的User-agent字段。

下圖是我使用Chrome訪問淘寶網的HTTP請求的User-agent：

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36

再回到Tomcat。假若有大量來自網絡爬蟲的讀取請求，Web服務器須要爲每個請求創立一個session。當Session數量變得巨大時，消耗的服務器內存和資源也是巨大的。

於是，Tomcat對於來自網絡爬蟲的請求，用同一個session來解決。

咱們打開Tomcat的源代碼來學習。

Tomcat的源代碼能夠到其官網去下載：

https://tomcat.apache.org/download-70.cgi

點這個連接：

我下載的是7.0.90版本，只有7MB大。

這裏須要注意，即使Spider顯式的傳了一個 sessionId過來，也會棄使用，而是根據client Ip 來進行判斷，即對於相同的 Spider 只提供一個Session。

在下載好的源代碼文件夾裏，找到這個子文件夾：\apache-tomcat-7.0.90-src\java\org\apache\catalina\valves

打開CrawlerSessionManagerValve.java：

能夠看到從第192行代碼開始都是Tomcat使用來檢測進來的網絡請求可否是網絡爬蟲：

經過這個類裏定義的正則表達式檢測HTTP請求的user-agent字段來判斷究竟該請求可否來自網絡爬蟲：

".[bB]ot.|.Yahoo! Slurp.|.Feedfetcher-Google."

一旦正則表達式在第205行匹配成功，將第206行的標誌位設成true。

假如檢測到是網絡爬蟲，則使用clientIdSessionId.get這個API獲取Tomcat專門爲網絡爬蟲預留的sessionId, 然後在第226行把該sessionId分配到進來的網絡爬蟲請求，這樣就避免了白費太多的資源申請session來服務海量的網絡爬蟲請求，節省了Web服務器的資源。

要獲取更多Jerry的原創技術文章，請關注公衆號"汪子熙"或者掃描下面二維碼:

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。