robots協議詳解

robots協議也就是robots.txt,網站經過robots協議告訴搜索引擎哪些頁面能夠抓取,哪些頁面不能抓取。Robots協議是網站國際互聯網界通行的道德規範,其目的是保護網站數據和敏感信息、確保用戶我的信息和隱私不被侵犯。因其不是命令,故須要搜索引擎自覺遵照。html

先講一下搜索引擎即咱們俗稱的爬蟲或蜘蛛的簡單工做流程:網站

1 咱們發佈的網站,都有一堆url;搜索引擎

2 蜘蛛抓取這些url並解析網頁,抽取其中的超級連接;url

3 蜘蛛接着抓取新發現新的網頁;code

4 以上循環往復。htm

robots協議就是用來告訴搜索引擎哪些網頁頁面能夠被抓取,哪些網頁不能抓取。索引

robots協議的寫法規範:圖片

User-agent: \* 這裏的\*表明的全部的搜索引擎種類,\*是一個通配符

Disallow: /xx/ 禁止抓取xx目錄下面的目錄

Disallow: /xx/ 這裏定義是禁止抓取xx目錄下面的目錄

Disallow: /xx/ 這裏定義是禁止抓取xx目錄下面的目錄

Disallow: /xx/\*.htm 禁止訪問/xx/目錄下的全部以".htm"爲後綴的URL(包含子目錄)。

Disallow: /\*?\* 禁止抓取網站中全部包含問號 (?) 的網址

Disallow: /.jpg$ 禁止抓取網頁全部的.jpg格式的圖片

Disallow:/xx/xx.html 禁止抓取xx文件夾下面的xx.html文件。

Allow: /xx/ 這裏定義是容許抓取xx目錄下面的目錄

Allow: /xx 這裏定義是容許抓取xx的整個目錄

Allow: .htm$ 僅容許抓取以".htm"爲後綴的URL。

Allow: .gif$ 容許抓取網頁和gif格式圖片

Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖

用法一:

禁止全部搜索引擎訪問網站的任何部分

User-agent: \*

Disallow: /

用法二:

容許全部的robot訪問

User-agent: \*

Allow: /
相關文章
相關標籤/搜索