robots協議詳解

時間 2021-04-21

標籤 html 網站搜索引擎 url code htm 索引圖片工作流欄目 HTML 简体版

原文原文鏈接

robots協議也就是robots.txt，網站經過robots協議告訴搜索引擎哪些頁面能夠抓取，哪些頁面不能抓取。Robots協議是網站國際互聯網界通行的道德規範，其目的是保護網站數據和敏感信息、確保用戶我的信息和隱私不被侵犯。因其不是命令，故須要搜索引擎自覺遵照。html

先講一下搜索引擎即咱們俗稱的爬蟲或蜘蛛的簡單工做流程：網站

1 咱們發佈的網站，都有一堆url；搜索引擎

2 蜘蛛抓取這些url並解析網頁，抽取其中的超級連接；url

3 蜘蛛接着抓取新發現新的網頁；code

4 以上循環往復。htm

robots協議就是用來告訴搜索引擎哪些網頁頁面能夠被抓取，哪些網頁不能抓取。索引

robots協議的寫法規範：圖片

User-agent: \* 這裏的\*表明的全部的搜索引擎種類，\*是一個通配符

Disallow: /xx/ 禁止抓取xx目錄下面的目錄

Disallow: /xx/ 這裏定義是禁止抓取xx目錄下面的目錄

Disallow: /xx/ 這裏定義是禁止抓取xx目錄下面的目錄

Disallow: /xx/\*.htm 禁止訪問/xx/目錄下的全部以".htm"爲後綴的URL(包含子目錄)。

Disallow: /\*?\* 禁止抓取網站中全部包含問號 (?) 的網址

Disallow: /.jpg$ 禁止抓取網頁全部的.jpg格式的圖片

Disallow:/xx/xx.html 禁止抓取xx文件夾下面的xx.html文件。

Allow: /xx/　這裏定義是容許抓取xx目錄下面的目錄

Allow: /xx 這裏定義是容許抓取xx的整個目錄

Allow: .htm$ 僅容許抓取以".htm"爲後綴的URL。

Allow: .gif$ 容許抓取網頁和gif格式圖片

Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖

用法一：

禁止全部搜索引擎訪問網站的任何部分

User-agent: \*

Disallow: /

用法二：

容許全部的robot訪問

User-agent: \*

Allow:　/