解析搜索引擎的Robots協議

時間 2019-12-05

原文原文鏈接

對於初爲站長的人來講，robots.txt文件應該是個比較神祕的東西，今天， 濟寧輝騰網站建設就爲你們來解析一下這個文件。

robots.txt是一種存放於網站根目錄下的文本文件，用於告訴搜索引擎的爬蟲（spider），此網站中的哪些內容是不該被搜索引擎的索引，哪些是能夠被索引。一般認爲，robots.txt文件用來搜索引擎對目標網頁的抓取。

　　robots.txt協議並非一個規範，而只是約定俗成的，一般搜索引擎會識別這個文件，但也有一些特殊狀況。

　　對於Google來講，使用robots也未必能阻止Google將網址編入索引，若是有其餘網站連接到該網頁的話，Google依然有可能會對其進行索引。按照Google的說法，要想完全阻止網頁的內容在Google網頁索引中（即便有其餘網站連接到該網頁）出現，須要使用noindex元標記或x-robots-tag。例如將下面的一行加入到網頁的header部分。

　　若是Google看到某一頁上有noindex的元標記，就會將此頁從Google的搜索結果中徹底丟棄，而無論是否還有其餘頁連接到此頁。

　　對於百度來講，狀況和Google相似，若是有其餘網站連接目標網頁，也有可能會被百度收錄，從百度的說明頁面上看，百度並不支持像Google那樣經過noindex徹底將網頁從索引上刪除，只支持使用noarchive元標記來禁止百度顯示網頁快照。具體的語句以下。

　　上面這個標記只是禁止百度顯示該網頁的快照，百度會繼續爲網頁建索引，並在搜索結果中顯示網頁摘要。

　　例如，淘寶網目前就經過robots.txt來屏蔽百度爬蟲，但百度依舊收錄了淘寶網的內容，百度搜索「淘寶網」，第一個結果也是淘寶網首頁地址，只是該頁面沒有網頁快照，所以看來，網站只能禁止百度的快照，而沒法禁止百度爲網頁建索引。

再好比， 濟寧輝騰網站建設 www.0537web.net 是不屏蔽蜘蛛的，因此目前，百度，google 等搜索引擎會正常收錄網站頁面。

轉載請註明濟寧輝騰網站建設 http://www.0537web.net/