PJzhang:robots協議的實際場景

貓寧!!!html

參考連接:ide

https://bbs.360.cn/thread-15062960-1-1.html測試

https://ziyuan.baidu.com/college/courseinfo?id=150網站

 

看到robots這個關鍵詞,先了解一下它的定義,以下是百度百科介紹:搜索引擎

robots是網站跟爬蟲間的協議,用簡單直接的txt格式文本方式告訴對應的爬蟲被容許的權限,也就是說robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,若是存在,搜索機器人就會按照該文件中的內容來肯定訪問的範圍;若是該文件不存在,全部的搜索蜘蛛將可以訪問網站上全部沒有被口令保護的頁面。url

 

展現一個robots.txt使用的例子:xml

https://cn.bing.com/robots.txt,這是必應搜索的robots.txt文件,節取其中一部分。htm

User-agent: msnbot-mediablog

Disallow: /索引

Allow: /th?

 

User-agent: Twitterbot

Disallow:

 

User-agent: *

Disallow: /account/

Disallow: /amp/

Disallow: /bfp/search

Disallow: /bing-site-safety

Disallow: /blogs/search/

Disallow: /entities/search

Disallow: /fd/

Disallow: /history

Disallow: /hotels/search

Disallow: /images?

Disallow: /images/search?

Disallow: /images/search/?

 

Sitemap: http://cn.bing.com/dict/sitemap-index.xml

 

只有當網站運營者不想讓一些網頁被搜索引擎收錄,纔會採用robots.txt,不然表示默認全站均可以被搜索引擎爬取收錄了。

robots.txt文件放於根目錄,內容可包含多條記錄,中間用空行分割,若是robots.txt中什麼都沒有,表示全站能夠爬取。

User-agent: *,表示針對全部爬蟲。

User-agent: Twitterbot,表示針對Twitterbot這一種爬蟲。

Disallow: /bfp/search,表示爬蟲不能訪問以/bfp/search開頭的全部url頁面,例如/bfp/search/abc.html,/bfp/searchabc.html等等,固然直接不容許對方訪問某一個特定的url也是能夠的。

Allow: /bfp/search/vip,表示爬蟲能夠訪問/bfp/search/vip開頭的全部url頁面。

Sitemap: http://cn.bing.com/dict/sitemap-index.xml,告知爬蟲這個文件是站點地圖

Allow和Disallow結合使用,靈活掌握爬蟲所訪問的頁面內容,不至於致使一刀切的局面。

 

這裏嚴格區分字母的大小寫。

 

*,星號表示0個及以上字符。

$,美圓符號表示結束符。

這兩個都是通配符

 

禁止全部搜索引擎訪問網站的任何目錄。

User-agent: *

Disallow: /

 

容許全部的搜索引擎訪問網站的任何目錄

User-agent: *

Allow: /

 

禁止百度訪問網站的任何目錄

User-agent: Baiduspider

Disallow: /

 

僅容許百度訪問網站的任何目錄

User-agent: Baiduspider

Allow: /

 

禁止訪問/abc/開頭下的目錄,可是其中的html後綴文件除外

User-agent: *

Disallow: /abc/

Allow:/abc/*.html$

 

禁止訪問網站中的全部動態頁面,注意字符全都是英文字符

User-agent: *

Disallow: /*?*

 

以上的都是一些基本的解釋說明,能夠經過查看知名站點的robots.txt文件,瞭解對方不想要讓搜索引擎抓取的路徑,對於滲透測試有時會有新的發現或啓發。

http://www.dianping.com/robots.txt,能看出來大衆點評不但願全部的爬蟲爬取其中的7個目錄,例如優惠券、圖片、帳戶等等,但絕對禁止愛幫網(聚合本地生活信息)和口碑網(阿里巴巴旗下生活信息平臺)這兩家的爬蟲爬取任何大衆點評域名www.dianping.com上的東西。

所有內容

User-agent: *

 

Disallow: /coupon/

Disallow: /events/

Disallow: /thirdconnect/

Disallow: /member/

Disallow: /album/

Disallow: /dplab/

 

User-agent: www.aibang.com Disallow: /

User-agent: aibang.com Disallow: /

User-agent: aibang Disallow: /

User-agent: aibangspider Disallow: /

User-agent: aibang-spider Disallow: /

User-agent: aibangbot Disallow: /

User-agent: aibang-bot Disallow: /

User-agent: koubeispider Disallow: /

User-agent: koubei.com Disallow: /

 

認真解讀一家站點的robots.txt,也許能夠看到互聯網江湖的一些刀光劍影的餘暉。

相關文章
相關標籤/搜索