網站robots協議介紹及文件寫法舉例

時間 2019-11-11

原文原文鏈接

robots協議是搜索引擎在爬取網站的時候要查看的第一個文件，文件會告訴蜘蛛程序在服務器上什麼文件是能夠被查看的，對應的不容許查看的內容，蜘蛛程序是不會查看.html

"robots.txt"文件包含一條或更多的記錄，這些記錄經過空行分開（以CR,CR/NL, or NL做爲結束符），每一條記錄的格式以下所示：web

1	`"<field>:<optional space><value><optional space>"`

在該文件中可使用#進行註解，具體使用方法和UNIX中的慣例同樣。該文件中的記錄一般以一行或多行User-agent開始，後面加上若干Disallow和Allow行,詳細狀況以下：服務器

User-agent:網絡

該項的值用於描述搜索引擎robot的名字。在"robots.txt"文件中，若是有多條User-agent記錄說明有多個robot會受到"robots.txt"的限制，對該文件來講，至少要有一條User-agent記錄。若是該項的值設爲*，則對任何robot均有效，在"robots.txt"文件中，"User-agent:*"這樣的記錄只能有一條。若是在"robots.txt"文件中，加入"User- agent:SomeBot"和若干Disallow、Allow行，那麼名爲"SomeBot"只受到"User-agent:SomeBot"後面的 Disallow和Allow行的限制。ide

Disallow:網站

該項的值用於描述不但願被訪問的一組URL，這個值能夠是一條完整的路徑，也能夠是路徑的非空前綴，以Disallow項的值開頭的URL不會被 robot訪問。例如"Disallow:/help"禁止robot訪問/help.html、/helpabc.html、/help /index.html，而"Disallow:/help/"則容許robot訪問/help.html、/helpabc.html，不能訪問 /help/index.html。"Disallow:"說明容許robot訪問該網站的全部url，在"/robots.txt"文件中，至少要有一條Disallow記錄。若是"/robots.txt"不存在或者爲空文件，則對於全部的搜索引擎robot，該網站都是開放的。搜索引擎

Allow:url

該項的值用於描述但願被訪問的一組URL，與Disallow項類似，這個值能夠是一條完整的路徑，也能夠是路徑的前綴，以Allow項的值開頭的URL 是��許robot訪問的。例如"Allow:/hibaidu"容許robot訪問/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一個網站的全部URL默認是Allow的，因此Allow一般與Disallow搭配使用，實現容許訪問一部分網頁同時禁止訪問其它全部URL的功能。spa

使用"*"and"$"：code

Baiduspider支持使用通配符"*"和"$"來模糊匹配url。

"$" 匹配行結束符。

"*" 匹配0或多個任意字符。

robots文件舉例:

1.禁止全部搜索引擎訪問網站的任何部分：

User-agent: *

Disallow: /

2.容許全部的robot訪問：

User-agent: *

Disallow: 或者

User-agent: *