robots.txt文件的規範寫法

robots.txt文件的規範寫法html

文件中的記錄經過空行分開，以CR、CR/NL、or NL做爲結束符。robots.txt文件中的記錄一般以一行或多行User-agent開始，後面加上若干Disallow和Allow行，詳細狀況以下：ide

User-agent:網站

用於描述搜索引擎蜘蛛的名字，在"Robots.txt"文件中，若是有多條User-agent記錄說明有多個搜索引擎蜘蛛會受到該協議的限制，對該文件來講，至少要有一條User-agent記錄。若是該項的值設爲*，則該協議對任何搜索引擎蜘蛛均有效，在"Robots.txt"文件中，"User-agent:*"這樣的記錄只能有一條。搜索引擎

Disallow:url

用於描述不但願被訪問到的一個URL，這個URL能夠是一條完整的路徑，也能夠是部分的，任何以Disallow開頭的URL均不會被Robot訪問到。.net

例如，」Disallow:/help」是指禁止搜索引擎蜘蛛抓取/help.html和/help/index.html；而」Disallow:/help/」則容許搜索引擎蜘蛛抓取/help.html，不能抓取/help/index.html。htm

Allow:索引

用於描述但願被訪問的一組URL，與Disallow項類似，這個值能夠是一條完整的路徑，也能夠是路徑的前綴，以Allow項的值開頭的URL是容許robot訪問的。get

學校招生class

例如，」Allow:/hibaidu」容許搜索引擎蜘蛛抓取/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網站的全部URL默認是Allow的，因此Allow一般與Disallow搭配使用，實現容許訪問一部分網頁同時禁止訪問其它全部URL的功能。

注意：Disallow與Allow行的順序是有意義的，搜索引擎蜘蛛會根據第一個匹配成功的Allow或Disallow行肯定是否訪問某個URL。

使用」*」和」$」：

Baiduspider支持使用通配符」*」和」$」來模糊匹配url。「$」匹配行結束符。「*」匹配0或多個任意字符。