robots.txt 文件由一條或多條規則組成。每條規則可禁止(或容許)特定抓取工具抓取相應網站中的指定文件路徑。bash
通俗一點的說法就是:告訴爬蟲,我這個網站,你哪些能看,哪些不能看的一個協議。工具
搜索引擎(爬蟲),訪問一個網站,首先要查看當前網站根目錄下的robots.txt,而後依據裏面的規則,進行網站頁面的爬取。 也就是說,robots.txt起到一個基調的做用,也能夠說是爬蟲爬取當前網站的一個行爲準則。優化
那使用robots.txt的目的,就很明確了。網站
栗子以下:搜索引擎
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: http://www.wangxiaokai.vip/sitemap.xml
複製代碼
解析:google
名爲「Googlebot」抓取工具的用戶代理不該抓取 http://wangxiaokai.vip/nogooglebot/ 文件夾或任何子目錄。 全部其餘用戶代理都可訪問整個網站。(不指定這條規則也無妨,結果是同樣的,由於徹底訪問權限是系統默認的前提。) 網站的站點地圖文件位於 http://www.wangxiaokai.vip/sitemap.xml
spa
必須位於它所應用到的網站主機的根目錄下代理
網頁抓取工具的名稱
不該抓取的目錄或網頁
應抓取的目錄或網頁
網站的站點地圖的位置
百度網盤的資源,到博文編寫時間爲止,已經不能用經常使用的搜索技巧site:pan.baidu.com 搜索關鍵字
的方式,在baidu.com
|google.com
|biying.com(國際版還能夠勉強搜索到)
去搜索對應的資源。 禁止的方式,很大程度上是依靠robots.txt
,而不是請去喝茶😆。code
如下是訪問 http://pan.baidu.com/robots.txt
獲得的規則:cdn
能夠看到,百度網盤封殺了全部資源文件入口。 最狠的是最後一句:
User-agent: *
Disallow: /
複製代碼
我只想說有資源真的能夠隨心所欲😂
喜歡我文章的朋友,掃描如下二維碼,瀏覽個人我的技術博客
或點擊連接王先生的基地