User-agent: *
Disallow: /
就能夠了..php
通常來講搜索引擎爬取網站時都會,先讀取下robots.txt文件,並依照裏面所設定的規則去爬取網站(固然是指沒用登陸限制的頁面)html
1).robots.txt文件必須是放在文件根目錄上:
例如:java
├─admin網絡
│ └─templateside
│ header.tpl.phppost
│ task_add.tpl.php學習
│ └─robots.txt測試
2 ) .首先經常使用的命令爲網站
User-agent : 能夠具體制定User-agent適用,即搜索引擎的名字,若是爲 * 的話則爲通配搜索引擎
Disallow : 能夠設定檔案或文件夾,不容許被爬蟲爬取,且爲 / 時禁止爬取整站 ,也能夠指定文件路徑,不可爬取
Crawl-delay: 延時爬取,防止爬蟲短期內爬取網站過快致使網站崩潰,則能夠設置該延時
Allow : 容許爬取指定頁面, 爲 / 時爬取整站
3) 搜索引擎別稱
Googlebot 谷歌
Baiduspider 百度
等等
很差的地方會增長網站的訪問負荷;有時,還會涉及到用戶的隱私;
好的地方也是增長了訪問流量;
若是須要防止的話,就須要監測網站,把一些不良網絡爬蟲的給堵止掉,通常是封IP。
robots.txt只能防止有品的爬蟲來爬
ps:因爲公司網站配置的測試環境被百度爬蟲抓取,干擾了線上正常環境的使用,恰好看到每次搜索淘寶時,都會有一句因爲robots.txt文件存在限制指令沒法提供內容描述,因而便去學習了一波
1.原來通常來講搜索引擎爬取網站時都會,先讀取下robots.txt文件,並依照裏面所設定的規則去爬取網站(固然是指沒用登陸限制的頁面)
2.下面咱們就來講一說如何設置robots.txt文件
1).robots.txt文件必須是放在文件根目錄上:
例如:
├─admin
│ └─templates
│ header.tpl.php
│ task_add.tpl.php
│ └─robots.txt
2 ) .首先經常使用的命令爲
User-agent : 能夠具體制定User-agent適用,即搜索引擎的名字,若是爲 * 的話則爲通配
Disallow : 能夠設定檔案或文件夾,不容許被爬蟲爬取,且爲 / 時禁止爬取整站 ,也能夠指定文件路徑,不可爬取
Crawl-delay: 延時爬取,防止爬蟲短期內爬取網站過快致使網站崩潰,則能夠設置該延時
Allow : 容許爬取指定頁面, 爲 / 時爬取整站
3) 搜索引擎別稱
Googlebot 谷歌
Baiduspider 百度
等等
相似咱們測試環境就設置了
User-agent : / 全部搜索引擎
Disallow : / 禁止整站
參考:如何使用robots禁止各大搜索引擎爬蟲爬取網站 - link_xjxj - 博客園
https://www.cnblogs.com/jjq-exchange/p/9549989.html
爬蟲有好處也有壞處:
威脅主要是流量方面,包括爬蟲的訪問以及搜索引擎被使用帶來的實際用戶訪問。
對網站有好有壞,
很差的地方會增長網站的訪問負荷;有時,還會涉及到用戶的隱私;
好的地方也是增長了訪問流量;
若是搜索引擎收錄了你的網站,你的網站的流量會增長,也就是有更多的用戶訪問量。
你想讓更多用戶知道的話,就容許網絡爬蟲,若是須要防止的話,就須要監測網站,把一些不良網絡爬蟲的給堵止掉,通常是封IP。 正常狀況下,在網站的目錄下放一個robots.txt的文件,裏面能夠聲明禁止爬蟲來爬,作爲一個有品的爬蟲程序,就不去爬了,固然沒品的不在此列。