百度搜索:有關Baiduspider的10個問題

貓寧!!!html

參考連接:linux

http://help.baidu.com/question?prod_id=99&class=476&id=2996ios

https://ziyuan.baidu.com/college/articleinfo?id=1002數據庫

 

這是百度主站的robots.txtwindows

https://www.baidu.com/robots.txt服務器

例如其中的一條以下:ide

User-agent: Googlebot網站

Disallow: /baidu搜索引擎

Disallow: /s?spa

Disallow: /shifen/

Disallow: /homepage/

Disallow: /cpro

Disallow: /ulink?

Disallow: /link?

Disallow: /home/news/data/

 

1-什麼是Baiduspider

Baiduspider是百度搜索引擎的一個自動程序,它的做用是訪問互聯網上的網頁,創建索引數據庫,使用戶能在百度搜索引擎中搜索到您網站上的網頁。

 

2-Baiduspider的user-agent是什麼?

索引擎百度各個產品使用不一樣的user-agent:

網頁搜索:Baiduspider

移動搜索:Baiduspider

圖片搜索:Baiduspider-image

視頻搜索:Baiduspider-video

新聞搜索:Baiduspider-news

百度收藏:Baiduspider-favo

百度聯盟:Baiduspider-cpro

商務搜索:Baiduspider-ads

 

3-如何區分百度PC與移動網頁搜索的user-agent?

百度PC搜索完整UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html

百度移動搜索完整UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

經過關鍵詞Baiduspider/2.0來肯定是PC UA。

經過關鍵詞Android、Mobile和Baiduspider/2.0 肯定爲移動端百度爬蟲。

 

4-Baiduspider對一個網站服務器形成的訪問壓力如何?

爲了達到對目標資源較好的檢索效果,Baiduspider須要對您的網站保持必定量的抓取。咱們儘可能不給網站帶來不合理的負擔,並會根據服務器承受能力,網站質量,網站更新等綜合因素來進行調整。若是您以爲baiduspider的訪問行爲有任何不合理的狀況,您能夠反饋至百度反饋中心。

 

5-爲何Baiduspider不停的抓取個人網站?  

對於您網站上新產生的或者持續更新的頁面,Baiduspider會持續抓取。此外,您也能夠檢查網站訪問日誌中Baiduspider的訪問是否正常,以防止有人惡意冒充Baiduspider來頻繁抓取您的網站。 若是您發現Baiduspider非正常抓取您的網站,請經過投訴平臺反饋給咱們,並請儘可能給出Baiduspider對貴站的訪問日誌,以便於咱們跟蹤處理。

 

6-如何判斷是否冒充Baiduspider的抓取?   

建議您使用DNS反查方式來肯定抓取來源的ip是否屬於百度,根據平臺不一樣驗證方法不一樣。

linux下host ip命令,windows下nslookup ip命令,ios下dig ip命令

查看hostname格式是否符合*.baidu.com或者*.baidu.jp,不符合的那就是冒充的。

 

7-我不想個人網站被Baiduspider訪問,我該怎麼作?

Baiduspider遵照互聯網robots協議。您能夠利用robots.txt文件徹底禁止Baiduspider訪問您的網站,或者禁止Baiduspider訪問您網站上的部分文件。 注意:禁止Baiduspider訪問您的網站,將使您的網站上的網頁,在百度搜索引擎以及全部百度提供搜索引擎服務的搜索引擎中沒法被搜索到。關於robots.txt的寫做方法,請參看咱們的介紹:robots.txt寫做方法

您能夠根據各產品不一樣的user-agent設置不一樣的抓取規則,若是您想徹底禁止百度全部的產品收錄,能夠直接對Baiduspider設置禁止抓取。

如下robots實現禁止全部來自百度的抓取:

User-agent: Baiduspider Disallow: /

如下robots實現禁止全部來自百度的抓取但容許圖片搜索抓取/image/目錄:

User-agent: Baiduspider Disallow: /

User-agent: Baiduspider-image Allow: /image/

請注意:Baiduspider-cpro抓取的網頁並不會建入索引,只是執行與客戶約定的操做,因此不遵照robots協議,若是Baiduspider-cpro給您形成了困擾,請聯繫union1@baidu.com。 Baiduspider-ads抓取的網頁並不會建入索引,只是執行與客戶約定的操做,因此不遵照robots協議,若是Baiduspider-ads給您形成了困擾,請聯繫您的客戶服務專員。

 

8-爲何個人網站已經加了robots.txt,還能在百度搜索出來?   

由於搜索引擎索引數據庫的更新須要時間。雖然Baiduspider已經中止訪問您網站上的網頁,但百度搜索引擎數據庫中已經創建的網頁索引信息,可能須要數月時間纔會清除。另外也請檢查您的robots配置是否正確。若是您的拒絕被收錄需求很是急迫,也能夠經過投訴平臺反饋請求處理。


9-我但願個人網站內容被百度索引但不被保存快照,我該怎麼作?
   

Baiduspider遵照互聯網meta robots協議。您能夠利用網頁meta的設置,使百度顯示只對該網頁建索引,但並不在搜索結果中顯示該網頁的快照。
robots的更新同樣,由於搜索引擎索引數據庫的更新須要時間,因此雖然您已經在網頁中經過meta禁止了百度在搜索結果中顯示該網頁的快照,但百度搜索引擎數據庫中若是已經創建了網頁索引信息,可能須要二至四周纔會在線上生效。

10-Baiduspider抓取形成的帶寬堵塞?

Baiduspider的正常抓取並不會形成您網站的帶寬堵塞,形成此現象多是因爲有人冒充Baiduspider惡意抓取。若是您發現有名爲Baiduspider的agent抓取而且形成帶寬堵塞,請儘快和咱們聯繫。您能夠將信息反饋至投訴平臺 ,若是可以提供您網站該時段的訪問日誌將更加有利於咱們的分析。

相關文章
相關標籤/搜索