文件寫法
User-agent: * 這裏的*表明的全部的搜索引擎種類,*是一個
通配符
Disallow: /admin/ 這裏定義是禁止爬尋
admin目錄下面的目錄
Disallow: /require/ 這裏定義是禁止爬尋require目錄下面的
目錄
Disallow: /ABC/ 這裏定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的全部以".htm"爲後綴的URL(包含
子目錄)。
Disallow: /*?* 禁止訪問網站中全部包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁全部的.jpg格式的
圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這裏定義是容許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這裏定義是容許爬尋tmp的整個目錄
Allow: .htm$ 僅容許訪問以".htm"爲後綴的URL。
Allow: .gif$ 容許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖
安全隱患
若是robots.txt文件編輯的太過詳細,反而會泄露網站的敏感目錄或者文件,好比網站後臺路徑,從而得知其使用的系統類型,從而有針對性地進行利用。html