SEO優化-robots.txt解讀

時間 2019-11-17

標籤 seo 優化 robots.txt robots txt 解讀欄目網站開發简体版

原文原文鏈接

1、什麼是robots.txt

robots.txt 文件由一條或多條規則組成。每條規則可禁止（或容許）特定抓取工具抓取相應網站中的指定文件路徑。bash

通俗一點的說法就是：告訴爬蟲，我這個網站，你哪些能看，哪些不能看的一個協議。工具

2、爲何要使用robots.txt

搜索引擎（爬蟲），訪問一個網站，首先要查看當前網站根目錄下的robots.txt，而後依據裏面的規則，進行網站頁面的爬取。也就是說，robots.txt起到一個基調的做用，也能夠說是爬蟲爬取當前網站的一個行爲準則。優化

那使用robots.txt的目的，就很明確了。網站

更好地作定向SEO優化，重點曝光有價值的連接給爬蟲
將敏感文件保護起來，避免爬蟲爬取收錄

3、robots.txt的示例

栗子以下：搜索引擎

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.wangxiaokai.vip/sitemap.xml
複製代碼

解析：google

名爲「Googlebot」抓取工具的用戶代理不該抓取 http://wangxiaokai.vip/nogooglebot/ 文件夾或任何子目錄。全部其餘用戶代理都可訪問整個網站。（不指定這條規則也無妨，結果是同樣的，由於徹底訪問權限是系統默認的前提。）網站的站點地圖文件位於 http://www.wangxiaokai.vip/sitemap.xmlspa

4、文件規範

一、文件格式和命名

文件格式爲標準 ASCII 或 UTF-8
文件必須命名爲 robots.txt
只能有 1 個 robots.txt 文件

二、文件位置

必須位於它所應用到的網站主機的根目錄下代理

三、經常使用的關鍵字

User-agent 網頁抓取工具的名稱
Disallow 不該抓取的目錄或網頁
Allow 應抓取的目錄或網頁
Sitemap 網站的站點地圖的位置

5、百度網盤的應用

百度網盤的資源，到博文編寫時間爲止，已經不能用經常使用的搜索技巧site:pan.baidu.com 搜索關鍵字的方式，在baidu.com|google.com|biying.com（國際版還能夠勉強搜索到）去搜索對應的資源。禁止的方式，很大程度上是依靠robots.txt，而不是請去喝茶😆。code

如下是訪問 http://pan.baidu.com/robots.txt 獲得的規則：cdn