SEO 使用 robots.txt 文件攔截或刪除網頁

 http://www.google.com/support/webmasters/bin/answer.py?hl=zh-Hans&answer=156449&from=40360&rd=1 javascript

http://www.javascriptkit.com/howto/robots.shtmlphp

robots.txt 文件限制抓取網絡的搜索引擎漫遊器對您的網站的訪問。這些漫遊器是自動的,它們在訪問任意網站的網頁以前,都會查看是否存在阻止它們訪問特定網頁的 robots.txt 文件。(雖然某些漫遊器可能會以不一樣的方式解釋 robots.txt 文件中的指令,但全部正規的漫遊器都會遵循這些指令。然而,robots.txt 不是強制執行的,一些垃圾信息發送者和其餘麻煩製造者可能會忽略它。所以,咱們建議對機密信息採用密碼保護。)html

只有當您的網站中包含您不想讓搜索引擎編入索引的內容時,才須要使用 robots.txt 文件。若是您但願搜索引擎將網站上的全部內容編入索引,則不須要 robots.txt 文件(甚至連空的 robots.txt 文件也不須要)。java

儘管 Google 不會抓取 robots.txt 攔截的網頁內容或將其編入索引,但若是咱們在網絡上的其餘網頁中發現這些內容,咱們仍然會將這些網頁的網址編入索引。所以,網頁網址,可能還有其餘公開信息(如指向網站的連接中的定位文字或開放目錄項目 (www.dmoz.org) 中的標題),都有可能會出如今 Google 搜索結果中。web

爲了能使用 robots.txt 文件,您必需要有對您域的根目錄的訪問權限(若是您不能肯定是否有該權限,請與您的網絡託管商覈實)。若是您沒有對域的根目錄的訪問權限,可使用robots 元標記來限制訪問。數據庫

要完全禁止網頁的內容列在 Google 網絡索引中(即便有其餘網站連接到此網頁),可以使用 noindex 元標記。只要 Googlebot 抓取網頁的內容,就會看到 noindex 元標記並禁止網頁顯示在網絡索引中。服務器

 

 

您想要作什麼?

使用 robots.txt 生成工具生成 robots.txt 文件網絡

  1. 在網站站長工具首頁上,點擊所需的網站。
  2. 網站配置下,點擊抓取工具訪問
  3. 點擊生成 robots.txt 標籤。
  4. 選擇您的默認漫遊器訪問權限。咱們建議您容許全部漫遊器運行,並經過如下步驟排除您不但願其訪問您網站的全部特定漫遊器。這有助於防止您的網站發生意外攔截重要抓取工具的問題。
  5. 指定任何附加規則。例如,要阻止 Googlebot 訪問您網站上的全部文件和目錄,請按如下步驟操做:
    1. 操做列表中,選擇 Disallow
    2. 漫遊器列表中,點擊 Googlebot
    3. 文件或目錄框中,鍵入 /
    4. 點擊添加。robots.txt 文件的代碼將會自動生成。
  6. 保存 robots.txt 文件,方法是下載文件或將內容複製到文本文件並保存爲 robots.txt。將文件保存到您網站的頂級目錄下。robots.txt 文件必須位於域的根目錄中並命名爲"robots.txt"。位於子目錄中的 robots.txt 文件無效,由於漫遊器只在域的根目錄中查找此文件。例如,http://www.example.com/漫遊器.txt 是一個有效的位置,但 http://www.example.com/個人網站/漫遊器.txt 是一個無效的位置。

robots.txt 文件中指定的規則屬於請求,而非強制性命令。Googlebot 及全部的知名漫遊器都會遵照 robots.txt 文件中的指示。可是,一些無賴漫遊器(例如垃圾信息發送者和網絡內容非法搜索者的漫遊器及其餘不良漫遊器)可能就不會遵照此文件。所以,咱們建議您將機密信息保存在服務器上受密碼保護的目錄下。此外,不一樣的漫遊器對 robots.txt 文件的解譯可能不一樣,而且並不是全部漫遊器都支持文件中的每一個指令。咱們會盡最大努力建立適用於全部漫遊器的 robots.txt 文件,但不能保證這些文件的解譯效果。ide

要檢查您的 robots.txt 文件是否達到了預期的效果,請使用網站站長工具中的 Test robots.txt 工具。工具

手動建立 robots.txt 文件

最簡單的 robots.txt 文件使用兩條規則:

  • User-agent:應用如下規則的漫遊器
  • Disallow:要攔截的網址

這兩行會視爲文件中的一個條目。您可根據須要加入任意多個條目。您可在一個條目中加入多個 Disallow 行和多個 User-agent。

robots.txt 文件的各個部分都是獨立的,而不是在先前部分的基礎上構建的。例如:

User-agent: * Disallow: /文件夾 1/User-Agent: Googlebot Disallow: /文件夾 2/ 

在本例中,只有符合 /文件夾 2/ 的網址纔會被 Googlebot 禁止。

User-agent 和漫遊器

User-agent 是一種特定的搜索引擎漫遊器。網絡漫遊器數據庫列出了許多經常使用的漫遊器。您能夠將某一條目設置爲適用於某一特定漫遊器(以顯示名稱的方式列出)或適用於全部漫遊器(以標記爲星號的方式列出)。適用於全部漫遊器的條目應爲如下格式:

User-agent: * 

Google 使用多種不一樣的漫遊器 (User-agent)。咱們的網頁搜索所使用的漫遊器爲Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其餘漫遊器也會遵循您爲 Googlebot 所設置的規則,但您也能夠爲這些特定的漫遊器設置特定的規則。

攔截 User-agent

Disallow 行列出的是您要攔截的網頁。您能夠列出某一特定的網址或模式。條目應以正斜線 (/) 開頭。

  • 要攔截整個網站,請使用正斜線。
    Disallow: /
  • 要攔截某一目錄以及其中的全部內容,請在目錄名後添加正斜線。
    Disallow: /無用目錄/ 
  • 要攔截某個網頁,請列出該網頁。
    Disallow: /私人文件.html
  • 要從 Google 圖片中刪除特定圖片,請添加如下內容:
    User-agent: Googlebot-Image Disallow: /p_w_picpaths/狗.jpg 
  • 要從 Goo le 圖片中 除您網站上的全部圖片,請執行如下指令:
    User-agent: Googlebot-Image Disallow: / 
  • 要攔截某一特定文件類型的文件(例如 .gif),請使用如下內容:
    User-agent: Googlebot Disallow: /*.gif$
  • 要阻止抓取您網站上的網頁,而同時又能在這些網頁上顯示 Adsense 廣告,請禁止除 Mediapartners-Google 之外的全部漫遊器。這樣可以使網頁不出如今搜索結果中,同時又能讓 Mediapartners-Google 漫遊器分析網頁,從而肯定要展現的廣告。Mediapartners-Google 漫遊器不與其餘 Google User-agent 共享網頁。例如:
    User-agent: * Disallow: /  User-agent: Mediapartners-Google Allow: /

請注意,指令區分大小寫。例如,Disallow: /junk_file.asp 會攔截 http://www.example.com/junk_file.asp,卻會容許 http://www.example.com/Junk_file.asp。Googlebot 會忽略 robots.txt 中的空白內容(特別是空行)和未知指令。

Googlebot 支持經過 robots.txt 文件提交站點地圖文件

模式匹配

Googlebot(但並不是全部搜索引擎)遵循某些模式匹配原則。

  • 要匹配連續字符,請使用星號 (*)。例如,要攔截對全部以 private 開頭的子目錄的訪問,請使用如下內容:
    User-agent: Googlebot Disallow: /private*/
  • 要攔截對全部包含問號 (?) 的網址的訪問(具體地說,這種網址以您的域名開頭、後接任意字符串,而後接問號,然後又接任意字符串),請使用如下內容:
    User-agent: Googlebot Disallow: /*?
  • 要指定與某個網址的結尾字符相匹配,請使用 $。例如,要攔截以 .xls 結尾的全部網址,請使用如下內容:
    User-agent: Googlebot Disallow: /*.xls$

    您可將此模式匹配與 Allow 指令配合使用。例如,若是 ? 表明一個會話 ID,那麼您可能但願排除包含 ? 的全部網址,以確保 Googlebot 不會抓取重複網頁。可是以 ? 結尾的網址多是您但願包含在內的網頁的版本。在此狀況下,您能夠對您的 robots.txt 文件進行以下設置:

    User-agent: * Allow: /*?$ Disallow: /*?

    Disallow: /*? 指令會阻止包含 ? 的全部網址(具體地說,它將攔截全部以您的域名開頭、後接任意字符串,而後接問號,然後又接任意字符串的網址)。

    Allow: /*?$ 指令將容許以 ? 結尾的任何網址(具體地說,它將容許全部以您的域名開頭、後接任意字符串,而後接 ?,? 以後不接任何字符的網址)。

測試 robots.txt 文件

測試 robots.txt 工具可指明您的 robots.txt 文件是否會意外阻止 Googlebot 對您網站上的某個文件或目錄的訪問,或者它是否會容許 Googlebot 抓取不該顯示在網絡上的文件。當您輸入建議的 robots.txt 文件的文本時,該工具會採用與 Googlebot 相同的方式來讀取此文件的文本,並會列出文件的做用以及發現的任何問題。

要測試網站的 robots.txt 文件,請按如下步驟操做:

  1. 在網站站長工具主頁上,點擊所需的網站。
  2. 網站配置下,點擊抓取工具訪問
  3. 若是還沒有選中,請點擊測試 robots.txt 標籤。
  4. 複製您的 robots.txt 文件的內容,並將其粘貼到第一個框中。
  5. 網址框中,列出要用於測試的網站。
  6. 在 User-agent 列表中,選擇所需的 User-agent。

系統不會保存您對此工具所作的任何更改。要保存所作的更改,您須要複製相關內容並將其粘貼到您的 robots.txt 文件中。

此工具只爲 Google User-agent(如 Googlebot)提供結果。其餘漫遊器可能沒法以相同的方式解譯 robots.txt 文件。例如,Googlebot 支持標準 robots.txt 協議的擴展定義。它能夠解析 Allow: 指令以及某些模式匹配。所以,儘管工具會將包含這些擴展名的行顯示爲已解析,但請切記,這隻適用於 Googlebot,而並不必定適用於可能抓取您網站的其餘漫遊器。

相關文章
相關標籤/搜索