robots協議也就是robots.txt,網站經過robots協議告訴搜索引擎哪些頁面能夠抓取,哪些頁面不能抓取。Robots協議是網站國際互聯網界通行的道德規範,其目的是保護網站數據和敏感信息、確保用戶我的信息和隱私不被侵犯。因其不是命令,故須要搜索引擎自覺遵照。html
先講一下搜索引擎即咱們俗稱的爬蟲或蜘蛛的簡單工做流程:網站
1 咱們發佈的網站,都有一堆url;搜索引擎
2 蜘蛛抓取這些url並解析網頁,抽取其中的超級連接;url
3 蜘蛛接着抓取新發現新的網頁;code
4 以上循環往復。htm
robots協議就是用來告訴搜索引擎哪些網頁頁面能夠被抓取,哪些網頁不能抓取。索引
robots協議的寫法規範:圖片
User-agent: \* 這裏的\*表明的全部的搜索引擎種類,\*是一個通配符 Disallow: /xx/ 禁止抓取xx目錄下面的目錄 Disallow: /xx/ 這裏定義是禁止抓取xx目錄下面的目錄 Disallow: /xx/ 這裏定義是禁止抓取xx目錄下面的目錄 Disallow: /xx/\*.htm 禁止訪問/xx/目錄下的全部以".htm"爲後綴的URL(包含子目錄)。 Disallow: /\*?\* 禁止抓取網站中全部包含問號 (?) 的網址 Disallow: /.jpg$ 禁止抓取網頁全部的.jpg格式的圖片 Disallow:/xx/xx.html 禁止抓取xx文件夾下面的xx.html文件。 Allow: /xx/ 這裏定義是容許抓取xx目錄下面的目錄 Allow: /xx 這裏定義是容許抓取xx的整個目錄 Allow: .htm$ 僅容許抓取以".htm"爲後綴的URL。 Allow: .gif$ 容許抓取網頁和gif格式圖片 Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖 用法一: 禁止全部搜索引擎訪問網站的任何部分 User-agent: \* Disallow: / 用法二: 容許全部的robot訪問 User-agent: \* Allow: /