http://www.google.com/support/webmasters/bin/answer.py?hl=zh-Hans&answer=156449&from=40360&rd=1 javascript
http://www.javascriptkit.com/howto/robots.shtmlphp
robots.txt 文件限制抓取網絡的搜索引擎漫遊器對您的網站的訪問。這些漫遊器是自動的,它們在訪問任意網站的網頁以前,都會查看是否存在阻止它們訪問特定網頁的 robots.txt 文件。(雖然某些漫遊器可能會以不一樣的方式解釋 robots.txt 文件中的指令,但全部正規的漫遊器都會遵循這些指令。然而,robots.txt 不是強制執行的,一些垃圾信息發送者和其餘麻煩製造者可能會忽略它。所以,咱們建議對機密信息採用密碼保護。)html
只有當您的網站中包含您不想讓搜索引擎編入索引的內容時,才須要使用 robots.txt 文件。若是您但願搜索引擎將網站上的全部內容編入索引,則不須要 robots.txt 文件(甚至連空的 robots.txt 文件也不須要)。java
儘管 Google 不會抓取 robots.txt 攔截的網頁內容或將其編入索引,但若是咱們在網絡上的其餘網頁中發現這些內容,咱們仍然會將這些網頁的網址編入索引。所以,網頁網址,可能還有其餘公開信息(如指向網站的連接中的定位文字或開放目錄項目 (www.dmoz.org) 中的標題),都有可能會出如今 Google 搜索結果中。web
爲了能使用 robots.txt 文件,您必需要有對您域的根目錄的訪問權限(若是您不能肯定是否有該權限,請與您的網絡託管商覈實)。若是您沒有對域的根目錄的訪問權限,可使用robots 元標記來限制訪問。數據庫
要完全禁止網頁的內容列在 Google 網絡索引中(即便有其餘網站連接到此網頁),可以使用 noindex 元標記。只要 Googlebot 抓取網頁的內容,就會看到 noindex 元標記並禁止網頁顯示在網絡索引中。服務器
使用 robots.txt 生成工具生成 robots.txt 文件網絡
robots.txt 文件中指定的規則屬於請求,而非強制性命令。Googlebot 及全部的知名漫遊器都會遵照 robots.txt 文件中的指示。可是,一些無賴漫遊器(例如垃圾信息發送者和網絡內容非法搜索者的漫遊器及其餘不良漫遊器)可能就不會遵照此文件。所以,咱們建議您將機密信息保存在服務器上受密碼保護的目錄下。此外,不一樣的漫遊器對 robots.txt 文件的解譯可能不一樣,而且並不是全部漫遊器都支持文件中的每一個指令。咱們會盡最大努力建立適用於全部漫遊器的 robots.txt 文件,但不能保證這些文件的解譯效果。ide
要檢查您的 robots.txt 文件是否達到了預期的效果,請使用網站站長工具中的 Test robots.txt 工具。工具
最簡單的 robots.txt 文件使用兩條規則:
這兩行會視爲文件中的一個條目。您可根據須要加入任意多個條目。您可在一個條目中加入多個 Disallow 行和多個 User-agent。
robots.txt 文件的各個部分都是獨立的,而不是在先前部分的基礎上構建的。例如:
User-agent: * Disallow: /文件夾 1/User-Agent: Googlebot Disallow: /文件夾 2/
在本例中,只有符合 /文件夾 2/ 的網址纔會被 Googlebot 禁止。
User-agent 是一種特定的搜索引擎漫遊器。網絡漫遊器數據庫列出了許多經常使用的漫遊器。您能夠將某一條目設置爲適用於某一特定漫遊器(以顯示名稱的方式列出)或適用於全部漫遊器(以標記爲星號的方式列出)。適用於全部漫遊器的條目應爲如下格式:
User-agent: *
Google 使用多種不一樣的漫遊器 (User-agent)。咱們的網頁搜索所使用的漫遊器爲Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其餘漫遊器也會遵循您爲 Googlebot 所設置的規則,但您也能夠爲這些特定的漫遊器設置特定的規則。
Disallow 行列出的是您要攔截的網頁。您能夠列出某一特定的網址或模式。條目應以正斜線 (/) 開頭。
Disallow: /
Disallow: /無用目錄/
Disallow: /私人文件.html
User-agent: Googlebot-Image Disallow: /p_w_picpaths/狗.jpg
User-agent: Googlebot-Image Disallow: /
User-agent: Googlebot Disallow: /*.gif$
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
請注意,指令區分大小寫。例如,Disallow: /junk_file.asp
會攔截 http://www.example.com/junk_file.asp,卻會容許 http://www.example.com/Junk_file.asp。Googlebot 會忽略 robots.txt 中的空白內容(特別是空行)和未知指令。
Googlebot 支持經過 robots.txt 文件提交站點地圖文件。
Googlebot(但並不是全部搜索引擎)遵循某些模式匹配原則。
User-agent: Googlebot Disallow: /private*/
User-agent: Googlebot Disallow: /*?
User-agent: Googlebot Disallow: /*.xls$
您可將此模式匹配與 Allow 指令配合使用。例如,若是 ? 表明一個會話 ID,那麼您可能但願排除包含 ? 的全部網址,以確保 Googlebot 不會抓取重複網頁。可是以 ? 結尾的網址多是您但願包含在內的網頁的版本。在此狀況下,您能夠對您的 robots.txt 文件進行以下設置:
User-agent: * Allow: /*?$ Disallow: /*?
Disallow: /*? 指令會阻止包含 ? 的全部網址(具體地說,它將攔截全部以您的域名開頭、後接任意字符串,而後接問號,然後又接任意字符串的網址)。
Allow: /*?$ 指令將容許以 ? 結尾的任何網址(具體地說,它將容許全部以您的域名開頭、後接任意字符串,而後接 ?,? 以後不接任何字符的網址)。
測試 robots.txt 工具可指明您的 robots.txt 文件是否會意外阻止 Googlebot 對您網站上的某個文件或目錄的訪問,或者它是否會容許 Googlebot 抓取不該顯示在網絡上的文件。當您輸入建議的 robots.txt 文件的文本時,該工具會採用與 Googlebot 相同的方式來讀取此文件的文本,並會列出文件的做用以及發現的任何問題。
要測試網站的 robots.txt 文件,請按如下步驟操做:
系統不會保存您對此工具所作的任何更改。要保存所作的更改,您須要複製相關內容並將其粘貼到您的 robots.txt 文件中。
此工具只爲 Google User-agent(如 Googlebot)提供結果。其餘漫遊器可能沒法以相同的方式解譯 robots.txt 文件。例如,Googlebot 支持標準 robots.txt 協議的擴展定義。它能夠解析 Allow: 指令以及某些模式匹配。所以,儘管工具會將包含這些擴展名的行顯示爲已解析,但請切記,這隻適用於 Googlebot,而並不必定適用於可能抓取您網站的其餘漫遊器。