robots.txt的正確使用

robots.txt的位置:項目路徑WebRoot根目錄下。php

驗證方式:訪問項目地址/robots.txtcss

一、若是容許全部搜索引擎訪問網站的全部部分的話:
User-agent: *
Disallow:
或者
User-agent: *
Allow: /html

二、若是咱們禁止全部搜索引擎訪問網站的全部部分的話:ide

User-agent: *
Disallow: /網站

三、若是咱們禁止Google索引咱們的網站的話:搜索引擎

User-agent: Googlebot
Disallow: /url

四、若是咱們禁止除Google外的一切搜索引擎索引咱們的網站話:htm

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /索引

五、若是咱們須要禁止蜘蛛訪問某個目錄,好比禁止admin、css、images等目錄被索引的話:圖片

User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/

六、咱們看某些網站的robots.txt裏的Disallow或者Allow裏會看不少的符號,好比問號星號什麼的,若是使用「*」,主要是限制訪問某個後綴的域名,禁止訪問/html/目錄下的全部以".htm"爲後綴的URL(包含子目錄)。

User-agent: *
Disallow: /html/*.htm
10若是咱們使用「$」的話是僅容許訪問某目錄下某個後綴的文件
robots.txt寫法以下:
User-agent: *
Allow: .asp$
Disallow: /

七、若是咱們禁止百度搜索引擎抓取咱們網站上的全部圖片的話:

User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

八、除了百度以外和Google以外,禁止其餘搜索引擎抓取你網站的圖片:

User-agent: Baiduspider
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: Googlebot
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
九、僅僅容許百度抓取網站上的「JPG」格式文件:

User-agent: Baiduspider
Allow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

十、若是咱們想禁止搜索引擎對一些目錄或者某些URL訪問的話,能夠截取部分的名字:

User-agent:*
Disallow: /plus/feedback.php?

參考源自:http://wenku.baidu.com/link?url=QFIAhWZsTKO_c1bRt7CyIMh9uFmAtCtD5Se2NhwBkZQ6_Q8ECWib1WANi604SXHHxYQ0wpjo1GE0aCrDM95e7D8dNNtJ1HRSZzCa8rR1Izq

相關文章
相關標籤/搜索