Robots協議具體解釋

時間 2019-11-08

標籤 robots 協議具體解釋简体版

原文原文鏈接

禁止搜索引擎收錄的方法（robots.txt）

1、什麼是robots.txt文件?

搜索引擎經過一種程序robot（又稱spider），本身主動訪問互聯網上的網頁並獲取網頁信息。您可以在您的站點中建立一個純文本文件robots.txt，在這個文件裏聲明該站點中不想被robot訪問的部分，這樣，該站點的部分或全部內容就可以不被搜索引擎收錄了，或者指定搜索引擎僅僅收錄指定的內容。

2、robots.txt文件放在哪裏?

robots.txt文件應該放在站點根文件夾下。舉例來講，當robots訪問一個站點（比方http://www.abc.com）時，首先會檢查該站點中是否存在http://www.abc.com/robots.txt這個文件，假設機器人找到這個文件，它就會依據這個文件的內容，來肯定它訪問權限的範圍。

站點 URL 對應的 robots.txt的 URL

http://www.w3.org/ http://www.w3.org/robots.txt

http://www.w3.org:80/ http://www.w3.org:80/robots.txt

http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt

http://w3.org/ http://w3.org/robots.txt

3、robots.txt文件的格式

"robots.txt"文件包括一條或不少其它的記錄，這些記錄經過空行分開（以CR,CR/NL, or NL做爲結束符），每一條記錄的格式例如如下所看到的：":"。

在該文件裏可以使用#進行註解，具體用法和UNIX中的慣例同樣。該文件裏的記錄一般以一行或多行User-agent開始，後面加上若干Disallow行,具體狀況例如如下：

User-agent:

該項的值用於描寫敘述搜索引擎robot的名字，在"robots.txt"文件裏，假設有多條User-agent記錄說明有多個robot會受到該協議的限制，對該文件來講，至少要有一條User-agent記錄。假設該項的值設爲*，則該協議對不論什麼機器人均有效，在"robots.txt"文件裏，"User-agent：*"這種記錄僅僅能有一條。

Disallow :

　　該項的值用於描寫敘述不但願被訪問到的一個URL，這個URL可以是一條完整的路徑，也可以是部分的，不論什麼以Disallow開頭的URL均不會被robot訪問到。好比"Disallow: /help"對/help.html和/help/index.html都不一樣意搜索引擎訪問，而"Disallow:/help/"則贊成robot訪問/help.html，而不能訪問/help/index.html。不論什麼一條Disallow記錄爲空，說明該站點的所有部分都贊成被訪問，在"/robots.txt"文件裏，至少要有一Disallow記錄。假設"/robots.txt"是一個空文件，則對於所有的搜索引擎robot，該站點都是開放的。

4、robots.txt文件使用方法舉例

例1. 禁止所有搜索引擎訪問站點的不論什麼部分

下載該robots.txt文件 User-agent: *

Disallow: /

例2. 贊成所有的robot訪問

(或者也可以建一個空文件 "/robots.txt" file)

User-agent: *

Disallow:

例3. 禁止某個搜索引擎的訪問

User-agent: BadBot

Disallow: /

例4. 贊成某個搜索引擎的訪問

User-agent: baiduspider

Disallow:

User-agent: *

Disallow: /

例5. 一個簡單樣例

在這個樣例中，該站點有三個文件夾對搜索引擎的訪問作了限制，即搜索引擎不會訪問這三個文件夾。

需要注意的是對每一個文件夾必須分開聲明，而不要寫成 "Disallow: /cgi-bin/ /tmp/"。

User-agent:後的* 具備特殊的含義，表明"any robot"，因此在該文件裏不能有"Disallow:

/tmp/*" or "Disallow: *.gif"這種記錄出現.

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

5、robots.txt文件參考資料

robots.txt文件的更詳細設置,請參看下面資料：

· Web Server Administrator's Guide to the Robots Exclusion Protocol

· HTML Author's Guide to the Robots Exclusion Protocol

· The original 1994 protocol description, as currently deployed

· The revised Internet-Draft specification, which is not yet completed or implemented

在你的主頁中爲Web Robot設計路標

Internet愈來愈酷，WWW的知名度如日中天。在Internet上公佈公司信息、進行電子商務已經從時髦演化成時尚。做爲一個WebMaster，你可能對HTML、Javascript、Java、 ActiveX瞭如指掌，但你是否知道什麼是WebRobot？你是否知道Web Robot和你所設計的主頁有什麼關係？

　　 Internet 上的流浪漢--- Web Robot

有時你會莫名其妙地發現你的主頁的內容在一個搜索引擎中被索引，即便你從未與他們有過不論什麼聯繫。事實上這正是Web Robot的功勞。WebRobot事實上是一些程序，它可以穿越大量Internet網址的超文本結構，遞歸地檢索網絡網站所有的內容。這些程序有時被叫「蜘蛛（Spider）」，「網上流浪漢（Web Wanderer）」，「網絡蠕蟲（web worms）」或Webcrawler。一些Internet網上知名的搜索引擎網站（Search Engines）都有專門的WebRobot程序來完畢信息的採集，好比Lycos，Webcrawler，Altavista等，以及中文搜索引擎網站好比北極星

，網易，GOYOYO等。WebRobot就象一個不速之客，不管你是否在乎，它都會忠於本身主人的職責，不辭辛苦、不知疲倦地奔波於萬維網的空間，固然也會光臨你的主頁，檢索主頁內容並生成它所需要的記錄格式。也許有的主頁內容你樂於世人皆知，但有的內容你卻不肯被洞察、索引。難道你就僅僅能任其「橫行」於本身主頁空間，是否能指揮和控制WebRobot的行蹤呢？答案固然是確定的。僅僅要你閱讀了本篇的下文，就可以象一個交通警察同樣，佈置下一個個路標，告訴WebRobot應該怎麼去檢索你的主頁，哪些可以檢索，哪些不可以訪問。事實上Web Robot能聽懂你的話不要覺得Web Robot是毫無組織，毫無管束地亂跑。很是多Web Robot軟件給網絡網站的管理員或網頁內容製做者提供了兩種方法來限制Web Robot的行蹤：

1. Robots Exclusion Protocol 協議

網絡網站的管理員可以在網站上創建一個專門格式的文件，來指出網站上的哪一部分可以被robot訪問, 這個文件放在網站的根文件夾下，即robots.txt." target="_blank">http://.../robots.txt.

2. Robots META tag

一個網頁做者可以使用專門的HTML META tag ，來指出某一個網頁可否夠被索引、分析或連接。這些方法適合於大多數的Web Robot，至因而否在軟件中實施了這些方法，還依賴於 Robot的開發人員，並非可以保證對不論什麼Robot都靈驗。假設你迫切需要保護本身內容，則應考慮採用諸如添加password等其它保護方法。

使用Robots Exclusion Protocol 協議

當Robot訪問一個 Web 網站時，比方http://www.sti.net.cn/，它先去檢查文件robots.txt"target="_blank">http://www.sti.net.cn/robots.txt。假設這個文件存在，它便會依照這種記錄格式去分析：

　　User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　以肯定它是否應該檢索網站的文件。這些記錄是專門給Web Robot看的，通常的瀏覽者大概永遠不會看到這個文件，因此千萬不要異想天開地在裏面增長形似類的HTML語句或是「How do you do? where areyou from?」之類假情假意的問候語。

　　在一個網站上僅僅能有一個 "/robots.txt" 文件，而且文件名稱的每個字母要求全部是小寫。在Robot的記錄格式中每個單獨的"Disallow"行表示你不但願Robot訪問的URL，每個URL必須單獨佔一行，不能出現"Disallow: /cgi-bin/ /tmp/"這種病句。同一時候在一個記錄中不能出現空行，這是因爲空行是多個記錄切割的標誌。User-agent行指出的是Robot或其它代理的名稱。在User-agent行，'*' 表示一個特殊的含義---全部的robot。

　　如下是幾個robot.txt的樣例：

　　在整個server上拒絕所有的robots：

　　User-agent: *

Disallow: /

　　贊成所有的robots訪問整個網站：

　　User-agent: *

　　Disallow:

　　或者產生一個空的 "/robots.txt" 文件。

　　server的部份內容贊成所有的robot訪問

　　User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/