百度蜘蛛、Google蜘蛛、360蜘蛛如何辨別?

/**
 * 蜘蛛控制
 */
function spiderControl() {
    $user_agent = strtolower ( $_SERVER ['HTTP_USER_AGENT'] );
    $allow_spiders = array ('Baiduspider', 'Googlebot' );
    foreach ( $allow_spiders as $spider ) {
        $spider = strtolower ( $spider );
        if (strpos ( $user_agent, $spider ) !== false) {
            return true;
        }
    }
    return false;
}


百度蜘蛛(Baiduspider):
php

http://help.baidu.com/question?prod_en=master&class=498
html


百度蜘蛛(Baiduspider)常見問題解答:web

http://help.baidu.com/question?prod_en=master&class=498&id=1000550ide


360蜘蛛
post

http://lusongsong.com/blog/post/458.html網站


各大搜索引擎蜘蛛名稱(http://www.boshan.com.cn/blog/3211.aspx):搜索引擎

一、百度蜘蛛:Baiduspider
網上的資料百度蜘蛛名稱有BaiduSpider、baiduspider等,都洗洗睡吧,那是舊黃曆了。spa

百度蜘蛛最新名稱爲Baiduspider(第一個字母大寫)。日誌中還發現了Baiduspider-image這個百度旗下蜘蛛,查了下資料(其實直接看名字就能夠了……),是抓取圖片的蜘蛛。
常見百度旗下同類型蜘蛛還有下面這些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取圖片)、Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)。
注:以上百度蜘蛛目前常見的是Baiduspider和Baiduspider-image兩種。日誌


二、谷歌蜘蛛:Googlebot
這個爭議較少,但也有說是GoogleBot的。谷歌蜘蛛最新名稱爲「compatible; Googlebot/2.1;」。還發現了Googlebot-Mobile,看名字是抓取wap內容的。code


三、360蜘蛛:360Spider,它是一個很「勤奮抓爬」的蜘蛛。


四、SOSO蜘蛛:Sosospider,也可爲它頒一個「勤奮抓爬」獎的蜘蛛。


五、雅虎蜘蛛:Yahoo! Slurp China 或者 Yahoo!

名稱中帶 Slurp 和空格,名稱有空格robots里名稱可使用 Slurp 或者 Yahoo 單詞描述,不知道有效無效。


六、有道蜘蛛:YoudaoBot,YodaoBot(兩個名字都有,中文拼音少了個U字母讀音差異很大嘎,這都會少?)


七、搜狗蜘蛛:Sogou News Spider
搜狗蜘蛛還包括以下這些:Sogou web spider、Sogou inst spider、Sogou spider二、Sogou blog、Sogou News Spider、Sogou Orion spider,
(參考一些網站的robots文件,搜狗蜘蛛名稱能夠用Sogou歸納,沒法驗證不知道有沒有效)
看看最權威的百度的robots.txt,http://www.baidu.com/robots.txt 就爲Sogou搜狗蜘蛛費了很多字節,佔了一大塊領地。
「Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider」目前6個,名稱都帶空格。
線上常見"Sogou web spider/4.0" ;"Sogou News Spider/4.0" ;"Sogou inst spider/4.0" 能夠爲它頒個「佔名爲王」獎。


八、MSN蜘蛛:msnbot,msnbot-media(只見到msnbot-media在狂爬……)


九、必應蜘蛛:bingbot
線上(compatible; bingbot/2.0;)


十、一搜蜘蛛:YisouSpider


十一、Alexa蜘蛛:ia_archiver


十二、宜sou蜘蛛:EasouSpider


1三、即刻蜘蛛:JikeSpider


1四、一淘網蜘蛛:EtaoSpider
"Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)"
根據上述蜘蛛中選擇幾個經常使用的容許抓取,其他的均可以經過robots屏蔽抓取。若是你暫時空間流量還足夠使用,等流量緊張了就保留幾個經常使用的屏蔽掉其它蜘蛛以節省流量。至於那些蜘蛛抓取對網站能帶來有利用的價值,網站的管理者眼睛是雪亮的。

另外還發現瞭如 YandexBot、AhrefsBot和ezooms.bot這些蜘蛛,聽說這些蜘蛛國外噶,對中文網站用處很小。那不如就節省下資源。

相關文章
相關標籤/搜索