貓寧!!!html
參考連接:ide
https://bbs.360.cn/thread-15062960-1-1.html測試
https://ziyuan.baidu.com/college/courseinfo?id=150網站
看到robots這個關鍵詞,先了解一下它的定義,以下是百度百科介紹:搜索引擎
robots是網站跟爬蟲間的協議,用簡單直接的txt格式文本方式告訴對應的爬蟲被容許的權限,也就是說robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,若是存在,搜索機器人就會按照該文件中的內容來肯定訪問的範圍;若是該文件不存在,全部的搜索蜘蛛將可以訪問網站上全部沒有被口令保護的頁面。url
展現一個robots.txt使用的例子:xml
https://cn.bing.com/robots.txt,這是必應搜索的robots.txt文件,節取其中一部分。htm
User-agent: msnbot-mediablog
Disallow: /索引
Allow: /th?
User-agent: Twitterbot
Disallow:
User-agent: *
Disallow: /account/
Disallow: /amp/
Disallow: /bfp/search
Disallow: /bing-site-safety
Disallow: /blogs/search/
Disallow: /entities/search
Disallow: /fd/
Disallow: /history
Disallow: /hotels/search
Disallow: /images?
Disallow: /images/search?
Disallow: /images/search/?
Sitemap: http://cn.bing.com/dict/sitemap-index.xml
只有當網站運營者不想讓一些網頁被搜索引擎收錄,纔會採用robots.txt,不然表示默認全站均可以被搜索引擎爬取收錄了。
robots.txt文件放於根目錄,內容可包含多條記錄,中間用空行分割,若是robots.txt中什麼都沒有,表示全站能夠爬取。
User-agent: *,表示針對全部爬蟲。
User-agent: Twitterbot,表示針對Twitterbot這一種爬蟲。
Disallow: /bfp/search,表示爬蟲不能訪問以/bfp/search開頭的全部url頁面,例如/bfp/search/abc.html,/bfp/searchabc.html等等,固然直接不容許對方訪問某一個特定的url也是能夠的。
Allow: /bfp/search/vip,表示爬蟲能夠訪問/bfp/search/vip開頭的全部url頁面。
Sitemap: http://cn.bing.com/dict/sitemap-index.xml,告知爬蟲這個文件是站點地圖
Allow和Disallow結合使用,靈活掌握爬蟲所訪問的頁面內容,不至於致使一刀切的局面。
這裏嚴格區分字母的大小寫。
*,星號表示0個及以上字符。
$,美圓符號表示結束符。
這兩個都是通配符
禁止全部搜索引擎訪問網站的任何目錄。
User-agent: *
Disallow: /
容許全部的搜索引擎訪問網站的任何目錄
User-agent: *
Allow: /
禁止百度訪問網站的任何目錄
User-agent: Baiduspider
Disallow: /
僅容許百度訪問網站的任何目錄
User-agent: Baiduspider
Allow: /
禁止訪問/abc/開頭下的目錄,可是其中的html後綴文件除外
User-agent: *
Disallow: /abc/
Allow:/abc/*.html$
禁止訪問網站中的全部動態頁面,注意字符全都是英文字符
User-agent: *
Disallow: /*?*
以上的都是一些基本的解釋說明,能夠經過查看知名站點的robots.txt文件,瞭解對方不想要讓搜索引擎抓取的路徑,對於滲透測試有時會有新的發現或啓發。
http://www.dianping.com/robots.txt,能看出來大衆點評不但願全部的爬蟲爬取其中的7個目錄,例如優惠券、圖片、帳戶等等,但絕對禁止愛幫網(聚合本地生活信息)和口碑網(阿里巴巴旗下生活信息平臺)這兩家的爬蟲爬取任何大衆點評域名www.dianping.com上的東西。
所有內容
User-agent: *
Disallow: /coupon/
Disallow: /events/
Disallow: /thirdconnect/
Disallow: /member/
Disallow: /album/
Disallow: /dplab/
User-agent: www.aibang.com Disallow: /
User-agent: aibang.com Disallow: /
User-agent: aibang Disallow: /
User-agent: aibangspider Disallow: /
User-agent: aibang-spider Disallow: /
User-agent: aibangbot Disallow: /
User-agent: aibang-bot Disallow: /
User-agent: koubeispider Disallow: /
User-agent: koubei.com Disallow: /
認真解讀一家站點的robots.txt,也許能夠看到互聯網江湖的一些刀光劍影的餘暉。