【網站抓取】如何正確識別Baiduspider移動ua

  百度站長平臺發佈公告宣佈新版Baiduspider移動ua上線,同時公佈了PC版Baiduspider ua,那麼該如何正確識別移動ua呢?咱們百度站長平臺技術專家孫權老師給出了答案:html


  新版移動ua:ide


  Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)網站


  PC ua:url


  Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html).net


  以前經過「+http://www.baidu.com/search/spider.html」進行識別的網站 上海性病醫院請注意!您須要修改識別方式,新的正確的識別Baiduspider移動ua的方法以下:htm


  1. 經過關鍵詞「Android」或者「Mobile」來進行識別,判斷爲移動訪問或者抓取。對象


  2. 經過關鍵詞「Baiduspider/2.0」,判斷爲百度爬蟲。get


  另外須要強調的是,對於robots封禁,若是封禁的agent是Baiduspider,會對PC和移動同時生效。即 上海人乳頭瘤病毒醫院,不管是PC仍是移動Baiduspider,都不會對封禁對象進行抓取。之因此要強調這一點,是發現有些代碼適配站點(同一個url,PC ua打開的時候是PC頁,移動ua打開的時候是移動頁),想經過設置robots的agent封禁達到只讓移動Baiduspider抓取的目的,但因爲PC和移動Baiduspider的agent都是Baiduspider,這種方法是很是不可取的。it

相關文章
相關標籤/搜索