Robots協議具體解釋

禁止搜索引擎收錄的方法(robots.txt)
1、什麼是robots.txt文件?
搜索引擎經過一種程序robot(又稱spider),本身主動訪問互聯網上的網頁並獲取網頁信息。您可以在您的站點中建立一個純文本文件robots.txt,在這個文件裏聲明該站點中不想被robot訪問的部分,這樣,該站點的部分或全部內容就可以不被搜索引擎收錄了,或者指定搜索引擎僅僅收錄指定的內容。
2、robots.txt文件放在哪裏?
robots.txt文件應該放在站點根文件夾下。舉例來講,當robots訪問一個站點(比方http://www.abc.com)時,首先會檢查該站點中是否存在http://www.abc.com/robots.txt這個文件,假設機器人找到這個文件,它就會依據這個文件的內容,來肯定它訪問權限的範圍。
站點 URL 對應的 robots.txt的 URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt
3、robots.txt文件的格式
"robots.txt"文件包括一條或不少其它的記錄,這些記錄經過空行分開(以CR,CR/NL, or NL做爲結束符),每一條記錄的格式例如如下所看到的:":"。
在該文件裏可以使用#進行註解,具體用法和UNIX中的慣例同樣。該文件裏的記錄一般以一行或多行User-agent開始,後面加上若干Disallow行,具體狀況例如如下:
User-agent:
該項的值用於描寫敘述搜索引擎robot的名字,在"robots.txt"文件裏,假設有多條User-agent記錄說明有多個robot會受到該協議的限制,對該文件來講,至少要有一條User-agent記錄。假設該項的值設爲*,則該協議對不論什麼機器人均有效,在"robots.txt"文件裏,"User-agent:*"這種記錄僅僅能有一條。
Disallow :
  該項的值用於描寫敘述不但願被訪問到的一個URL,這個URL可以是一條完整的路徑,也可以是部分的,不論什麼以Disallow開頭的URL均不會被robot訪問到。好比"Disallow: /help"對/help.html和/help/index.html都不一樣意搜索引擎訪問,而"Disallow:/help/"則贊成robot訪問/help.html,而不能訪問/help/index.html。不論什麼一條Disallow記錄爲空,說明該站點的所有部分都贊成被訪問,在"/robots.txt"文件裏,至少要有一Disallow記錄。假設"/robots.txt"是一個空文件,則對於所有的搜索引擎robot,該站點都是開放的。
4、robots.txt文件使用方法舉例
例1.            禁止所有搜索引擎訪問站點的不論什麼部分
下載該robots.txt文件 User-agent: *
Disallow: /
例2.            贊成所有的robot訪問
(或者也可以建一個空文件 "/robots.txt" file)
User-agent: *
Disallow:
例3.            禁止某個搜索引擎的訪問
User-agent: BadBot
Disallow: /
例4.            贊成某個搜索引擎的訪問
User-agent: baiduspider
Disallow:
User-agent: *
Disallow: /
例5. 一個簡單樣例
在這個樣例中,該站點有三個文件夾對搜索引擎的訪問作了限制,即搜索引擎不會訪問這三個文件夾。
需要注意的是對每一個文件夾必須分開聲明,而不要寫成 "Disallow: /cgi-bin/ /tmp/"。
User-agent:後的* 具備特殊的含義,表明"any robot",因此在該文件裏不能有"Disallow:
/tmp/*" or "Disallow: *.gif"這種記錄出現.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
5、robots.txt文件參考資料
robots.txt文件的更詳細設置,請參看下面資料:
· Web Server Administrator's Guide to the Robots Exclusion Protocol
· HTML Author's Guide to the Robots Exclusion Protocol
· The original 1994 protocol description, as currently deployed
· The revised Internet-Draft specification, which is not yet completed or implemented
 
在你的主頁中爲Web Robot設計路標
Internet愈來愈酷,WWW的知名度如日中天。在Internet上公佈公司信息、進行電子商務已經從時髦演化成時尚。做爲一個WebMaster,你可能對HTML、Javascript、Java、 ActiveX瞭如指掌,但你是否知道什麼是WebRobot?你是否知道Web Robot和你所設 計的主頁有什麼關係?
   Internet 上的流浪漢--- Web Robot
有時你會莫名其妙地發現你的主頁的內容在一個搜索引擎中被索引,即便你從未與他 們有過不論什麼聯繫。事實上這正是Web Robot的功勞。WebRobot事實上是一些程序,它可以 穿越大量Internet網址的超文本結構,遞歸地檢索網絡網站所有的內容。這些程序有時被叫「蜘蛛(Spider)」 , 「網上流浪漢(Web Wanderer)」,「網絡蠕蟲(web worms)」或Webcrawler。一些Internet網上知名的搜索引擎網站(Search Engines)都 有專門的WebRobot程序來完畢信息的採集,好比Lycos,Webcrawler,Altavista等,以及中文搜索引擎網站好比北極星
,網易,GOYOYO等。WebRobot就象一個不速之客,不管你是否在乎,它都會忠於本身主人的職責,不辭辛苦、不知疲倦地奔波於萬維網的空間,固然也會光臨你的主頁,檢索主頁內容並生成它所需要的記錄格式。也許有的主頁內容你樂於世人皆知,但有的內容你卻不肯被洞察、索引。難道你就僅僅能任其「橫行」於本身主頁空間,是否能指揮和控制WebRobot的行蹤呢?答案固然是確定的。僅僅要你閱讀了本篇的下文,就可以象一個交通 警察同樣,佈置下一個個路標,告訴WebRobot應該怎麼去檢索你的主頁,哪些可以檢索,哪些不可以訪問。事實上Web Robot能聽懂你的話不要覺得Web Robot是毫無組織,毫無管束地亂跑。很是多Web Robot軟件給網絡網站的 管理員或網頁內容製做者提供了兩種方法來限制Web Robot的行蹤:
1.         Robots Exclusion Protocol 協議
網絡網站的管理員可以在網站上創建一個專門格式的文件,來指出網站上的哪一部分 可以被robot訪問, 這個文件放在網站的根文件夾下,即robots.txt." target="_blank">http://.../robots.txt.
2.         Robots META tag
一個網頁做者可以使用專門的HTML META tag ,來指出某一個網頁可否夠被索 引、分析或連接。這些方法適合於大多數的Web Robot,至因而否在軟件中實施了這些方法,還依賴於 Robot的開發人員,並非可以保證對不論什麼Robot都靈驗。假設你迫切需要保護本身內容,則應考慮採用諸如添加password等其它保護方法。
 
使用Robots Exclusion Protocol 協議
當Robot訪問一個 Web 網站時,比方http://www.sti.net.cn/,它先去檢查文件robots.txt"target="_blank">http://www.sti.net.cn/robots.txt。假設這個文件存在,它便會依照這種記錄格式去分析:
  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /~joe/
  以肯定它是否應該檢索網站的文件。這些記錄是專門給Web Robot看的,通常的瀏覽者大概永遠不會看到這個文件,因此千萬不要異想天開地在裏面增長形似 類的HTML語句或是「How do you do? where areyou from?」之類假情假意的問候語。
  在一個網站上僅僅能有一個 "/robots.txt" 文件,而且文件名稱的每個字母要求全部是小寫。在Robot的記錄格式中每個單獨的"Disallow"行表示你不但願Robot訪問的URL, 每個URL必須單獨佔一行,不能出現"Disallow: /cgi-bin/ /tmp/"這種病句。同一時候在一個記錄中不能出現空行,這是因爲空行是多個記錄切割的標誌。User-agent行指出的是Robot或其它代理的名稱。在User-agent行,'*' 表示一個特殊的含義---全部的robot。
  如下是幾個robot.txt的樣例:
  在整個server上拒絕所有的robots:
  User-agent: *
Disallow: /
 
  贊成所有的robots訪問整個網站:
  User-agent: *
  Disallow:
  或者產生一個空的 "/robots.txt" 文件。
 
  server的部份內容贊成所有的robot訪問
  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /private/
 
  拒絕某一個專門的robot:
  User-agent: BadBot
  Disallow: /
 
 
  僅僅贊成某一個robot光顧:
  User-agent: WebCrawler
  Disallow:
  User-agent: *
  Disallow: /
  
  最後咱們給出 http://www.w3.org/網站上的robots.txt:
  # For use by search.w3.org
  User-agent: W3Crobot/1
  Disallow:
  User-agent: *
  Disallow: /Member/ # This is restricted to W3C Members only
  Disallow: /member/ # This is restricted to W3C Members only
  Disallow: /team/ # This is restricted to W3C Team only
  Disallow: /TandS/Member # This is restricted to W3C Members only
  Disallow: /TandS/Team # This is restricted to W3C Team only
  Disallow: /Project
  Disallow: /Systems
  Disallow: /Web
  Disallow: /Team
  
   使用 Robots META tag 方式
Robots META tag 贊成HTML網頁做者指出某一頁可否夠被索引,或可否夠用來查找不少其它的連接文件。眼下僅僅有部分robot實施了這一功能。
Robots META tag的格式爲:
象其它的META tag同樣,它應該放在HTML文件的HEAD區:
  ...
  Robots META tag指令使用逗號隔開,可以使用的指令包含 [NO]INDEX 和[NO]FOLLOW。INDEX指令指出一個索引性robot可否夠對本頁進行索引;FOLLOW 指
令指出robot可否夠跟蹤本頁的連接。缺省的狀況是INDEX和FOLLOW。好比:一個好的Web 網站管理員應該將robot的管理考慮在內,使robot爲本身的主頁服務, 同一時候又不損害本身網頁的安全。
相關文章
相關標籤/搜索