robots.txt文件的規範寫法

robots.txt文件的規範寫法html

文件中的記錄經過空行分開,以CR、CR/NL、or NL做爲結束符。robots.txt文件中的記錄一般以一行或多行User-agent開始,後面加上若干Disallow和Allow行,詳細狀況以下:ide

User-agent:網站

用於描述搜索引擎蜘蛛的名字,在"Robots.txt"文件中,若是有多條User-agent記錄說明有多個搜索引擎蜘蛛會受到該協議的限制,對該文件來講,至少要有一條User-agent記錄。若是該項的值設爲*,則該協議對任何搜索引擎蜘蛛均有效,在"Robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。搜索引擎

Disallow:url

用於描述不但願被訪問到的一個URL,這個URL能夠是一條完整的路徑,也能夠是部分的,任何以Disallow開頭的URL均不會被Robot訪問到。.net

例如,」Disallow:/help」是指禁止搜索引擎蜘蛛抓取/help.html和/help/index.html;而」Disallow:/help/」則容許搜索引擎蜘蛛抓取/help.html,不能抓取/help/index.html。htm

Allow:索引

用於描述但願被訪問的一組URL,與Disallow項類似,這個值能夠是一條完整的路徑,也能夠是路徑的前綴,以Allow項的值開頭的URL是容許robot訪問的。get

學校招生class

例如,」Allow:/hibaidu」容許搜索引擎蜘蛛抓取/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網站的全部URL默認是Allow的,因此Allow一般與Disallow搭配使用,實現容許訪問一部分網頁同時禁止訪問其它全部URL的功能。

注意:Disallow與Allow行的順序是有意義的,搜索引擎蜘蛛會根據第一個匹配成功的Allow或Disallow行肯定是否訪問某個URL。

使用」*」和」$」:

Baiduspider支持使用通配符」*」和」$」來模糊匹配url。「$」匹配行結束符。「*」匹配0或多個任意字符。

相關文章
相關標籤/搜索