web之robots.txt

什麼是roots協議

robots協議也叫robots.txt(統一小寫)是一種存放於 網站根目錄下的 ASCII編碼的 文本文件,它一般告訴網絡 搜索引擎的漫遊器(又稱 網絡蜘蛛),此網站中的哪些內容是不該被搜索引擎的漫遊器獲取的,哪些是能夠被漫遊器獲取的。由於一些系統中的URL是大小寫敏感的,因此robots.txt的文件名應統一爲小寫。robots.txt應放置於網站的根目錄下。若是想單獨定義搜索引擎的漫遊器訪問子目錄時的行爲,那麼能夠將自定的設置合併到根目錄下的robots.txt,或者使用robots 元數據(Metadata,又稱元數據)。
robots協議並非一個規範,而只是約定俗成的,因此並不能保證網站的隱私。
robots.txt文件是一個 文本文件,使用 任何一個常見的 文本編輯器,好比 Windows系統自帶的Notepad,就能夠建立和編輯它
robots.txt是一個協議,而不是一個 命令。robots.txt是 搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴 蜘蛛程序在服務器上什麼文件是能夠被查看的。
當一個搜索蜘蛛訪問一個 站點時,它會首先 檢查該站點 根目錄下是否存在robots.txt,若是存在,搜索機器人就會按照該文件中的內容來肯定訪問的範圍;若是該文件不存在,全部的搜索蜘蛛將可以訪問網站上全部沒有被口令保護的頁面。百度官方建議,僅當您的網站包含不但願被 搜索引擎收錄的內容時,才須要使用robots.txt文件。若是您但願搜索引擎收錄網站上全部內容,請勿創建robots.txt文件。

使用原則

Robots協議是國際互聯網界通行的道德規範,基於如下原則創建:
一、 搜索技術應服務於人類,同時尊重信息提供者的意願,並維護其隱私權;
二、網站有義務保護其使用者的我的信息和 隱私不被侵犯。

文件寫法

User-agent: * 這裏的*表明的全部的搜索引擎種類,*是一個 通配符
Disallow: /admin/ 這裏定義是禁止爬尋 admin目錄下面的目錄
Disallow: /require/ 這裏定義是禁止爬尋require目錄下面的 目錄
Disallow: /ABC/ 這裏定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的全部以".htm"爲後綴的URL(包含 子目錄)。
Disallow: /*?* 禁止訪問網站中全部包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁全部的.jpg格式的 圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這裏定義是容許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這裏定義是容許爬尋tmp的整個目錄
Allow: .htm$ 僅容許訪問以".htm"爲後綴的URL。
Allow: .gif$ 容許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖

安全隱患

若是robots.txt文件編輯的太過詳細,反而會泄露網站的敏感目錄或者文件,好比網站後臺路徑,從而得知其使用的系統類型,從而有針對性地進行利用。html

相關文章
相關標籤/搜索