淺談屏蔽搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路

  網站建設好了,固然是但願網頁被搜索引擎收錄的越多越好,但有時候咱們也會碰到網站不須要被搜索引擎收錄的狀況。nginx

  好比,你要啓用一個新的域名作鏡像網站,主要用於PPC 的推廣,這個時候就要想辦法屏蔽搜索引擎蜘蛛抓取和索引咱們鏡像網站的全部網頁。由於若是鏡像網站也被搜索引擎收錄的話,頗有可能會影響官網在搜索引擎的權重,這確定是咱們不想看到的結果。web

  如下列舉了屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。注意:是整站屏蔽,並且是儘量的屏蔽掉全部主流搜索引擎的爬蟲(蜘蛛)。數據庫

一、經過 robots.txt 文件屏蔽api

  能夠說 robots.txt 文件是最重要的一種渠道(能和搜索引擎創建直接對話)。我經過分析我本身博客的服務器日誌文件,給出如下建議(同時歡迎網友補充):服務器

User-agent: Baiduspideride

Disallow: /工具

User-agent: Googlebotfetch

Disallow: /網站

User-agent: Googlebot-Mobile搜索引擎

Disallow: /

User-agent: Googlebot-Image

Disallow:/

User-agent: Mediapartners-Google

Disallow: /

User-agent: Adsbot-Google

Disallow: /

User-agent:Feedfetcher-Google

Disallow: /

User-agent: Yahoo! Slurp

Disallow: /

User-agent: Yahoo! Slurp China

Disallow: /

User-agent: Yahoo!-AdCrawler

Disallow: /

User-agent: YoudaoBot

Disallow: /

User-agent: Sosospider

Disallow: /

User-agent: Sogou spider

Disallow: /

User-agent: Sogou web spider

Disallow: /

User-agent: MSNBot

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: Tomato Bot

Disallow: /

User-agent: *

Disallow: /

二、經過 meta tag 屏蔽

  在全部的網頁頭部文件添加,添加以下語句:

    <meta name="robots" content="noindex, nofollow">

三、經過服務器(如:Linux/nginx )配置文件設置

  直接過濾 spider/robots 的IP 段。

  小注:第1招和第2招只對「君子」有效,防止「小人」要用到第3招(「君子」和「小人」分別泛指指遵照與不遵照 robots.txt 協議的 spider/robots),因此網站上線以後要不斷跟蹤分析日誌,篩選出這些 badbot 的ip,而後屏蔽之。

  這裏有一個badbot ip 數據庫:http://www.spam-whackers.com/bad.bots.htm

四、經過搜索引擎提供的站長工具,刪除網頁快照

  好比,有的時候百度不嚴格遵照 robots.txt 協議,能夠經過百度提供的「網頁投訴」入口刪除網頁快照。百度網頁投訴中心:http://tousu.baidu.com/webmaster/add

  以下圖是個人一個網頁投訴:

張相片

大概3天左右的時間過去,這個網頁的百度快照也被刪除,說明此種方法也能起效,固然這是不得而爲之,屬於亡羊補牢。

五、補充更新

  能夠經過檢測 HTTP_USER_AGENT 是否爲爬蟲/蜘蛛訪問,而後直接返回403 狀態碼屏蔽之。好比:因爲api 權限與微博信息隱私保護緣由,Xweibo 2.0 版本後禁止搜索引擎收錄。

張相片

  關於如何屏蔽搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁,您有其餘什麼更好的建議或者方法,也歡迎發表評論!期待與您交流。

本文做者:Bruce

原文地址:http://www.wuzhisong.com/blog/67/

相關文章
相關標籤/搜索